5 非监督学习

5 非监督学习

01 聚类

聚类是在事先并不知道任何样本类别标签的情况下, 通过数据之间的内在关系把样本划分为若干类别, 使得同类别样本之间的相似度高, 不同类别之间的样本相似度低。

02 K均值算法的优缺点

  • 缺点: 例如受初值和离群点的影响每次的结果不稳定、 结果通常不是全局最优而是局部最优解、 无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍) 、 不太适用于离散分类等。
  • 优点: 对于大数据集, K均值聚类算法相对是可伸缩和高效的。

03 K均值算法的调优

  • 数据归一化和离群点处理。
  • 合理选择K值。手肘法、Gap Statistic方法。
  • 采用核函数。

04 K-means++算法

选取K个聚类中心的思想: 假设已经 选取了n个初始聚类中心(0<n<K) , 则在选取第n+1个聚类中心时, 距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。

05 ISODATA算法

  • 当属于某个类别的样本数过少时, 把该类别去除; 当属于某个类别的样本数过多、 分散程度较大时, 把该类别分为两个子类别。
  • ISODATA算法在K均值算法的基础之上增加了两个操作, 一是分裂操作, 对应着增加聚类中心数; 二是合并操作, 对应着减少聚类中心数。

06 高斯混合模型

  • 高斯混合模型假设每个簇的数据都是符合高斯分布的, 当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。
  • 高斯混合模型与K均值算法的相同点是, 它们都是可用于聚类的算法; 都需要指定K值; 都是使用EM算法来求解; 都往往只能收敛于局部最优。 而它相比于K均值算法的优点是, 可以给出一个样本属于某类的概率是多少; 不仅仅可以用于聚类, 还可以用于概率密度的估计; 并且可以用于生成新的样本点。

07 自组织映射神经网络

  • 可以用作聚类、 高维可视化、 数据压缩、 特征提取等多种用途。
  • 自组织映射神经网络与K均值算法的区别:
    • K均值算法需要事先定下类的个数, 也就是K的值。 而自组织映射神经网络则不用。
    • K均值算法为每个输入数据找到一个最相似的类后, 只更新这个类的参数; 自组织映射神经网络则会更新临近的节点。
    • 自组织映射神经网络的可视化比较好, 而且具有优雅的拓扑关系图。

08 聚类算法评估指标

  1. 估计聚类趋势
    1. 检测数据分布中是否存在非随机的簇结构,如果数据是基本随机的, 即不存在非随机簇结构, 那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著, 并且也找不到一个合适的K对应数据的真实簇数。
    2. 应用霍普金斯统计量(Hopkins Statistic) 来判断数据在空间上的随机性。
  2. 判定数据簇数
    1. 手肘法、Gap Statistic方法。
  3. 测定聚类质量
    1. 轮廓系数
    2. 均方根标准偏差
    3. R方
    4. 改进的HubertΓ统计
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值