目录
非监督学习的输入数据没有标签信息,主要包含两大类学习方法:数据聚类、特征变量关联。
数据聚类:多次迭代来找到数据的最优分割。
特征变量关联:利用各种相关性分析找到变量之间的关系。
01 k均值聚类
问题1:k均值的步骤
k均值:通过迭代寻找k个cluster,代价函数是各个样本距离中心的误差平方和。
问题2:k均值优缺点?如何调优?
缺点:受初值和离群点影响,不稳定;
一般都是局部最优解;
无法很好解决数据分布差异大(一类样本数是另一类的100倍)
优点:对于大数据集,k均值比较高效;
计算复杂度O(NKt, N是样本数,K为cluster数,t是迭代次数)接近线性;
调优:(1)数据归一化和离群点处理
(2)合理选择K值
(3)采用核函数:修改欧式距离的距离方式
问题3:针对K均值缺点,有哪些改进模型?
k值确定;局部最优;噪点影响;样本单一分类;
改进:
(1)k-means++算法
优化初始点的选择:随机选择第一个点,n+1个聚类中心选择离当前n个聚类中心越远的点
(2)ISODATA算法
ISODATA:确定K值,迭代自组织数据分析法
类别分类和丢弃,但是需要指定很多参数:k0,丢弃的样本阈值,最大方差等
问题4:证明k均值的收敛性
迭代计算:EM算法
02 高斯混合模型GMM
迭代计算:EM算法
与K均值聚类的相似:都要指定K值;都用EM迭代;都局部最优
优点:给出某类的概率;样本生成。
03 自组织映射神经网络SOM
也叫Kohonen网络。
04 聚类算法的评估
问题1:以聚类问题为例,如果没有外部标签,怎么评价两个聚类算法的好坏?
(1)估计聚类趋势:如果数据基本随机,则找不到合适的K,聚类误差不会随着K的变化而变化。
(2)判定数据簇数:手肘法等
(3)测定聚类质量:轮廓系数、均方根标准偏差、R方、改进的Hubert