无监督学习——聚类

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_31425127/article/details/81291740

1、基本概念理解

无监督学习——通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

聚类——将数据集中的样本划分为若干个不相干的子集,每个子集称为一个“簇”,即类别。需要说明的是,聚类之前并不知道数据是属于哪一类的,我们就是要通过聚类来找出有哪些类别并把这些数据归类。

2、聚类的两个基本问题

2.1 性能度量

性能度量亦称有效性指标,一方面,我们需要通过某种性能度量来评价聚类结果的好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

那么,什么是符合要求的好的聚类结果呢?即,簇内相似度高且簇间相似度低。

因此性能度量 也大致分为两类,一类是“外部指标”,即将聚类结果与某个“参考模型”进行比较;另一类是“内部指标”,即直接考察聚类结果而不利用任何参考模型。

  • 外部指标
    • JC系数
    • FM系数(FMI)
    • Rand系数(RI)
      上述度量结果都在[0,1]区间,值越大越好
  • 内部指标
    • DB指数(DBI:值越小越好
    • Dunn指数(DI):值越大越好
2.2 距离计算
  • 闵科夫斯基距离
    p=1时,即欧式距离
    p=2时,即曼哈顿距离
    p=无穷大时,即切比雪夫距离
  • 夹角余弦相似度
    常见应用就是计算文本相似度。将两个文本根据它们的词,建立两个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况。
  • Jaccsrd相似系数
    适用于样本只有(0,1)的情况,又叫二元相似性
    将杰卡德相似性度量应用到基于物品的协同过滤系统中,并建立起相应的评价分析方法。 与传统相似性度量方法相比,杰卡德方法完善了余弦相似性只考虑用户评分而忽略了其他信息量的弊端,特别适合于应用到稀疏度过高的数据。
  • VDM(Value Difference Metric)
    以上距离计算公式适用于有序属性,所谓的“有序”是指能直接在属性值上计算距离,如定义域为{1,2,3}的属性就是“有序属性”;而定义域为{飞机,火车,轮船}这样的离散属性则是“无序属性”。对于“无序属性”,可以采用VDM来计算距离,具体公式不讲了。

3、常见的几种聚类算法

3.1 K-Means聚类

优化目标:每个样本到达中心点和最小,即最小化平方误差
算法步骤
(1)根据聚类簇数k,随机选取k个样本作为初始均值向量;
(2)计算每个样本分别与当前各均值向量的距离:dj=||xj-||2,样本距离哪个均值向量近就被划分到哪一簇中,这样就能得到每个簇的样本集合;
(3)计算每个簇的均值,作为新的均值向量;
(4)再重复(2)、(3)步骤,直到每次产生的新的均值向量与上次变化不大为止。也可以多次随机初始化均值向量,然后选择聚类结果最好的那一个。
优点
1、算法简单易实施,速度快,计算简便
2、对处理大数据,该算法保持可伸缩性和高效性
3、当簇接近高斯分布时,聚类效果较好
缺点
1、算法中k是事先给定的,这个k的选择是难以估计的,很多时候我们并不知道数据有多少类;
2、初始聚类中心的选择对结果有较大影响,一旦选择不好,可能无法得到有效的聚类结果;
3、算法需要不断迭代计算距离并调整聚类中心,因此当数据量很大时,时间开销也很大;
4、若簇中含有异常点,将导致均值偏离严重(即对噪声和孤立点数据敏感)
5、不适用于发现非凸形状的簇或者大小差别很大的簇
k值以及初始簇内中心点的选择
k值选择:给定一个合适的类簇指标,比如平均半径或直径,只要我们假设的类簇的数目等于或者高于真实的类簇的数目时,该指标上升会很缓慢,而一旦试图得到少于真实数目的类簇时,该指标会急剧上升。通过枚举法,应该选择由急剧到平缓的转折点作为k值。

初始中心点选择:
- 随机选择k个点作为簇中心
- 选择批次距离尽可能远的k个点
- 先用层次聚类或Canopy算法进行初始聚类,然后利用这些类簇的中心点作为初始类簇中心点

3.2 高斯混合聚类
3.3 密度聚类
3.4 层次聚类

注:其他聚类方法参考:https://blog.csdn.net/Katherine_hsr/article/details/79382249

其他参考链接:https://cloud.tencent.com/developer/article/1111747
https://blog.csdn.net/u011204487/article/details/59624571
https://blog.csdn.net/suibianshen2012/article/details/51584537

展开阅读全文

没有更多推荐了,返回首页