百面机器学习(5)非监督学习

目录

01 k均值聚类

02 高斯混合模型GMM

03 自组织映射神经网络SOM

04 聚类算法的评估


非监督学习的输入数据没有标签信息,主要包含两大类学习方法:数据聚类、特征变量关联。

数据聚类:多次迭代来找到数据的最优分割。

特征变量关联:利用各种相关性分析找到变量之间的关系。

 

01 k均值聚类

问题1:k均值的步骤

k均值:通过迭代寻找k个cluster,代价函数是各个样本距离中心的误差平方和。

 

问题2:k均值优缺点?如何调优?

缺点:受初值和离群点影响,不稳定;

           一般都是局部最优解;

           无法很好解决数据分布差异大(一类样本数是另一类的100倍)

优点:对于大数据集,k均值比较高效;

           计算复杂度O(NKt, N是样本数,K为cluster数,t是迭代次数)接近线性;

调优:(1)数据归一化和离群点处理

           (2)合理选择K值

           (3)采用核函数:修改欧式距离的距离方式

 

问题3:针对K均值缺点,有哪些改进模型?

k值确定;局部最优;噪点影响;样本单一分类;

改进:

(1)k-means++算法

优化初始点的选择:随机选择第一个点,n+1个聚类中心选择离当前n个聚类中心越远的点

(2)ISODATA算法

ISODATA:确定K值,迭代自组织数据分析法

类别分类和丢弃,但是需要指定很多参数:k0,丢弃的样本阈值,最大方差等

 

问题4:证明k均值的收敛性

迭代计算:EM算法

 

02 高斯混合模型GMM

迭代计算:EM算法

与K均值聚类的相似:都要指定K值;都用EM迭代;都局部最优

优点:给出某类的概率;样本生成。

 

03 自组织映射神经网络SOM

也叫Kohonen网络。

 

04 聚类算法的评估

问题1:以聚类问题为例,如果没有外部标签,怎么评价两个聚类算法的好坏?

(1)估计聚类趋势:如果数据基本随机,则找不到合适的K,聚类误差不会随着K的变化而变化。

(2)判定数据簇数:手肘法等

(3)测定聚类质量:轮廓系数、均方根标准偏差、R方、改进的Hubert

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值