数据挖掘 聚类

将现实世界的问题进行数据建模 mathlab

事例
例如百度搜索引擎,某地区频繁搜索某种症状,由于查询关键字很集中,查到当地饮用水收到污染

第一 数据来源 ,搜索引擎的查询聚类 (要强调版权,数据的来源)
得到一些关键词来源,追踪这个词

  1. 什么是聚类分析
    类似于:一个同学是一个数据,这一个寝室的同学可以是一个簇,不同的寝室是不同的簇,(错误的,这个是划分,聚类的甄别没有准确的定则)
    簇内:同一个寝室同学距离点小,一定比两个不同的簇之间的两个点直接距离小。
    与划分不同点,他是有意义的
    两个簇的对小距离,两个簇中对象距离最小距离

    1. 聚类分析的目的
      分析后看他有什么规律,可以对一簇数据进行一些定义
  2. 什么是非聚类分析
    监督分类 :分类标志信息
    简单分割:把学生的姓名按字母分到不同的组
    查询结果:外部说明的结果

  3. 聚类与分类
    分类,试讲一个新来的的数据,将其分类打上标签,绝对分割
    聚类,找到他们有什么不同(用距离来表示数据的不同度)

  4. 聚类与分类 评价标准
    分类 准确率 召回率 精读(数据分类后 数据感觉被完全分类了)
    聚类 无监督指标 监督的指标(类内距离近,类外距离远,用距离来度量,相似的数据距离近 ,不同点多的数据远,一组很相近的数据组成了类\簇)

  5. 聚类的一般应用
    模式识别
    空间数据分析
    图像识别,(对像素识别,即可用聚类,如:距离近的很多绿色点,电脑识别可能是棵树)

  6. 经典聚类算法
    图像边缘检测,(树的绿色点,和天空的蓝色点,组成两大聚类,可以检测出边缘)

  7. 其他应用
    对客户进行聚类
    手机用户,购物用户等
    异常点检测
    信用卡盗用 ,(直接数据很平稳,盗用后可能被刷爆,可能信用卡被盗)
    噪音
    虚假评价

  8. 聚类的类型
    同一个数据 使用不同的聚类算法(不同的观点,不同的角度),可以的到不同的簇
    分层聚类(大簇中继续(有嵌套))
    分割良好聚类(直接分)
    函数聚类
    基于中心聚类 (中心点最能代表簇的特点)
    相近的聚类(聚类形状不规则的)
    概念聚类()
    基于聚类的

  9. 聚类的其他区别
    模糊聚类,数据距离不明显

  10. k均值聚类算法
    分割算法 中心
    最初的质心常常是随机的
    质心通常是类内各个点见的平均距离
    k均值拒了算法 百度百科

  11. 初始化质心的解决方案
    二分法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值