百面机器学习（5）非监督学习

最新推荐文章于 2022-09-26 11:59:22 发布

有石为玉

最新推荐文章于 2022-09-26 11:59:22 发布

阅读量267

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41770169/article/details/92781369

版权

技术文档专栏收录该内容

66 篇文章 0 订阅

订阅专栏

目录

01 k均值聚类

02 高斯混合模型GMM

03 自组织映射神经网络SOM

04 聚类算法的评估

非监督学习的输入数据没有标签信息，主要包含两大类学习方法：数据聚类、特征变量关联。

数据聚类：多次迭代来找到数据的最优分割。

特征变量关联：利用各种相关性分析找到变量之间的关系。

01 k均值聚类

问题1：k均值的步骤

k均值：通过迭代寻找k个cluster，代价函数是各个样本距离中心的误差平方和。

问题2：k均值优缺点？如何调优？

缺点：受初值和离群点影响，不稳定；

一般都是局部最优解；

无法很好解决数据分布差异大（一类样本数是另一类的100倍）

优点：对于大数据集，k均值比较高效；

计算复杂度O(NKt, N是样本数，K为cluster数，t是迭代次数)接近线性；

调优：（1）数据归一化和离群点处理

（2）合理选择K值

（3）采用核函数：修改欧式距离的距离方式

问题3：针对K均值缺点，有哪些改进模型？

k值确定；局部最优；噪点影响；样本单一分类；

改进：

（1）k-means++算法

优化初始点的选择：随机选择第一个点，n+1个聚类中心选择离当前n个聚类中心越远的点

（2）ISODATA算法

ISODATA：确定K值，迭代自组织数据分析法

类别分类和丢弃，但是需要指定很多参数：k0，丢弃的样本阈值，最大方差等

问题4：证明k均值的收敛性

迭代计算：EM算法

02 高斯混合模型GMM

迭代计算：EM算法

与K均值聚类的相似：都要指定K值；都用EM迭代；都局部最优

优点：给出某类的概率；样本生成。

03 自组织映射神经网络SOM

也叫Kohonen网络。

04 聚类算法的评估

问题1：以聚类问题为例，如果没有外部标签，怎么评价两个聚类算法的好坏？

（1）估计聚类趋势：如果数据基本随机，则找不到合适的K，聚类误差不会随着K的变化而变化。

（2）判定数据簇数：手肘法等

（3）测定聚类质量：轮廓系数、均方根标准偏差、R方、改进的Hubert

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习（5）非监督学习

目录01 k均值聚类02 高斯混合模型GMM03 自组织映射神经网络SOM04 聚类算法的评估非监督学习的输入数据没有标签信息，主要包含两大类学习方法：数据聚类、特征变量关联。数据聚类：多次迭代来找到数据的最优分割。特征变量关联：利用各种相关性分析找到变量之间的关系。01 k均值聚类问题1：k均值的步骤k均值：通过迭代寻找k个cluster，代价函...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。