5 非监督学习

最新推荐文章于 2024-06-22 11:30:00 发布

ukakasu

最新推荐文章于 2024-06-22 11:30:00 发布

阅读量454

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ukakasu/article/details/85111528

版权

33 篇文章 0 订阅

订阅专栏

聚类是在事先并不知道任何样本类别标签的情况下，通过数据之间的内在关系把样本划分为若干类别，使得同类别样本之间的相似度高，不同类别之间的样本相似度低。

缺点：例如受初值和离群点的影响每次的结果不稳定、结果通常不是全局最优而是局部最优解、无法很好地解决数据簇分布差别比较大的情况（比如一类是另一类样本数量的100倍）、不太适用于离散分类等。
优点：对于大数据集， K均值聚类算法相对是可伸缩和高效的。

选取K个聚类中心的思想：假设已经选取了n个初始聚类中心（0<n<K），则在选取第n+1个聚类中心时，距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。

高斯混合模型假设每个簇的数据都是符合高斯分布的，当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。
高斯混合模型与K均值算法的相同点是，它们都是可用于聚类的算法；都需要指定K值；都是使用EM算法来求解；都往往只能收敛于局部最优。而它相比于K均值算法的优点是，可以给出一个样本属于某类的概率是多少；不仅仅可以用于聚类，还可以用于概率密度的估计；并且可以用于生成新的样本点。

可以用作聚类、高维可视化、数据压缩、特征提取等多种用途。
自组织映射神经网络与K均值算法的区别：
- K均值算法需要事先定下类的个数，也就是K的值。而自组织映射神经网络则不用。
- K均值算法为每个输入数据找到一个最相似的类后，只更新这个类的参数；自组织映射神经网络则会更新临近的节点。
- 自组织映射神经网络的可视化比较好，而且具有优雅的拓扑关系图。

估计聚类趋势
1. 检测数据分布中是否存在非随机的簇结构，如果数据是基本随机的，即不存在非随机簇结构，那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著，并且也找不到一个合适的K对应数据的真实簇数。
2. 应用霍普金斯统计量（Hopkins Statistic）来判断数据在空间上的随机性。
判定数据簇数
1. 手肘法、Gap Statistic方法。
测定聚类质量
1. 轮廓系数
2. 均方根标准偏差
3. R方
4. 改进的HubertΓ统计

关注