5 非监督学习
01 聚类
聚类是在事先并不知道任何样本类别标签的情况下, 通过数据之间的内在关系把样本划分为若干类别, 使得同类别样本之间的相似度高, 不同类别之间的样本相似度低。
02 K均值算法的优缺点
- 缺点: 例如受初值和离群点的影响每次的结果不稳定、 结果通常不是全局最优而是局部最优解、 无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍) 、 不太适用于离散分类等。
- 优点: 对于大数据集, K均值聚类算法相对是可伸缩和高效的。
03 K均值算法的调优
- 数据归一化和离群点处理。
- 合理选择K值。手肘法、Gap Statistic方法。
- 采用核函数。
04 K-means++算法
选取K个聚类中心的思想: 假设已经 选取了n个初始聚类中心(0<n<K) , 则在选取第n+1个聚类中心时, 距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。
05 ISODATA算法
- 当属于某个类别的样本数过少时, 把该类别去除; 当属于某个类别的样本数过多、 分散程度较大时, 把该类别分为两个子类别。
- ISODATA算法在K均值算法的基础之上增加了两个操作, 一是分裂操作, 对应着增加聚类中心数; 二是合并操作, 对应着减少聚类中心数。
06 高斯混合模型
- 高斯混合模型假设每个簇的数据都是符合高斯分布的, 当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。
- 高斯混合模型与K均值算法的相同点是, 它们都是可用于聚类的算法; 都需要指定K值; 都是使用EM算法来求解; 都往往只能收敛于局部最优。 而它相比于K均值算法的优点是, 可以给出一个样本属于某类的概率是多少; 不仅仅可以用于聚类, 还可以用于概率密度的估计; 并且可以用于生成新的样本点。
07 自组织映射神经网络
- 可以用作聚类、 高维可视化、 数据压缩、 特征提取等多种用途。
- 自组织映射神经网络与K均值算法的区别:
- K均值算法需要事先定下类的个数, 也就是K的值。 而自组织映射神经网络则不用。
- K均值算法为每个输入数据找到一个最相似的类后, 只更新这个类的参数; 自组织映射神经网络则会更新临近的节点。
- 自组织映射神经网络的可视化比较好, 而且具有优雅的拓扑关系图。