6.4密度与层次

  • Density Based Methods(基于密度的方法)
    • 图片特征
      • 很多噪点
      • 数据分布不规则
    • 好处
      • 和人眼的感觉接近
      • 不用事先设定K值,可以基于形状自动判断
  • DBSCAN

    • 解释
      • 核心思想:把点分成了三类
        • 核心点:以此点为中心画一个圈,如果这个圈中有足够多的点,那这个点就是核心点
      • 边缘点:我能找到一个核心点,且画一个圈,我在这个圈里面,我和核心关系近,但我自己不是核心
      • 噪点:不是核心点且与核心点“拉不上关系”,只能是噪点(是要被过滤掉的点)
    • DBSCAN中的连通性概念

    • DBSCAN的定义

      • 解释
        • 簇:从一个核心点出发,把所有能够连通的点都“收”起来
        • 从一个没有被处理过的点出发,如果它是核心点,就尽量通过“朋友圈”膨胀到最大
        • 一般通过递归的方式:例如,我有十个朋友,这十个朋友又有他们的朋友
        • 与K-Means(不管什么点是否是噪点,我都给你“聚了”)不同,DBSCAN会过滤“不合群”的点
  • Hierarchical Clustering(层次型聚类)

    • 解释
      • 特点:从底往上,把所有可能的聚类都“聚”出来,然后再根据需要决定分成几个簇
    • 方法:(Hierarchical) Agglomerative Methods:(分层)聚类法

      • 解释
        • 由底向上的
        • 是一个迭代过程
        • proximity matrix(时间、空间上的“靠近”) :距离矩阵
      • Example:如何计算簇之间的距离:计算方法可有所不同

        • 解释
          • 目的:做城市之间的一个聚类
          • 6*6的矩阵代表两个城市之间的距离(可以只看下三角)
          • 找到最小距离的两个城市后,合并并更新矩阵距离值,变为5*5矩阵
          • 使用“single link”方式:MI/TO与NA/RM合并前后的距离选择了754与564中的最小值564作为新的矩阵中的距离值
      • Single Link VS. Complete Link (Min vs. Max)

  • Reading Materials

  • 11
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值