将现实世界的问题进行数据建模 mathlab
事例
例如百度搜索引擎,某地区频繁搜索某种症状,由于查询关键字很集中,查到当地饮用水收到污染
第一 数据来源 ,搜索引擎的查询聚类 (要强调版权,数据的来源)
得到一些关键词来源,追踪这个词
什么是聚类分析
类似于:一个同学是一个数据,这一个寝室的同学可以是一个簇,不同的寝室是不同的簇,(错误的,这个是划分,聚类的甄别没有准确的定则)
簇内:同一个寝室同学距离点小,一定比两个不同的簇之间的两个点直接距离小。
与划分不同点,他是有意义的
两个簇的对小距离,两个簇中对象距离最小距离- 聚类分析的目的
分析后看他有什么规律,可以对一簇数据进行一些定义
- 聚类分析的目的
什么是非聚类分析
监督分类 :分类标志信息
简单分割:把学生的姓名按字母分到不同的组
查询结果:外部说明的结果聚类与分类
分类,试讲一个新来的的数据,将其分类打上标签,绝对分割
聚类,找到他们有什么不同(用距离来表示数据的不同度)聚类与分类 评价标准
分类 准确率 召回率 精读(数据分类后 数据感觉被完全分类了)
聚类 无监督指标 监督的指标(类内距离近,类外距离远,用距离来度量,相似的数据距离近 ,不同点多的数据远,一组很相近的数据组成了类\簇)聚类的一般应用
模式识别
空间数据分析
图像识别,(对像素识别,即可用聚类,如:距离近的很多绿色点,电脑识别可能是棵树)经典聚类算法
图像边缘检测,(树的绿色点,和天空的蓝色点,组成两大聚类,可以检测出边缘)其他应用
对客户进行聚类
手机用户,购物用户等
异常点检测
信用卡盗用 ,(直接数据很平稳,盗用后可能被刷爆,可能信用卡被盗)
噪音
虚假评价聚类的类型
同一个数据 使用不同的聚类算法(不同的观点,不同的角度),可以的到不同的簇
分层聚类(大簇中继续(有嵌套))
分割良好聚类(直接分)
函数聚类
基于中心聚类 (中心点最能代表簇的特点)
相近的聚类(聚类形状不规则的)
概念聚类()
基于聚类的聚类的其他区别
模糊聚类,数据距离不明显k均值聚类算法
分割算法 中心
最初的质心常常是随机的
质心通常是类内各个点见的平均距离
k均值拒了算法 百度百科初始化质心的解决方案
二分法