机器学习17：Unsupervised Learning-Linear Methods

最新推荐文章于 2021-07-04 18:00:16 发布

勤睿

最新推荐文章于 2021-07-04 18:00:16 发布

阅读量286

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqqinrui/article/details/85564705

版权

机器学习专栏收录该内容

25 篇文章 4 订阅

订阅专栏

一、聚类

1、K-means

初始化时，随机抽取K个样本作为聚类中心

2、（hierarchical agglomerative clustering）HAC合成聚类or分层聚类

自底向上每一层进行两两相似度计算，找到最相近的pairs，直到root，然后画一个threshold，即可划分具体类别。不同的shreshold导致类的个数不相同。

二、Dimension Reduction降维

1、特征选择

2、PCA

原理：

实质是找到一组正交向量w，使得每个样本在这组向量上的投影分布的较分散（variance较大），即找到的向量使得样本具有好的可分性。如图中橙色宽的维度就是最主要成分，与之垂直的那个橙色维度次之。z表示的是x在每个维度的投影值。

求解：略

其他视角：

PCA寻找了一个重建样本损失最小的一组向量。可以看做是一个自编码器，且这个自编码器的hidden layer是线性激活函数。

弱点：

（1）非监督：PCA将不同类别的数据混合在一起寻找主成分，找到的投影variance最大的成分可能造成两类数据无法区分。如图所示，红色箭头表示寻找到的一个主成分，当真实数据属于LDA那一栏的情况时，PCA的分法就造成了混叠。LDA后续介绍。

（2）线性：如图中的S型数据，PCA会将其压扁分类，显然不能区分。这种情况需要采用非线性变换。

NMF（Non-negative matrix factorization）：

NMF操作强制每个特征向量前的系数为正数，这样做的好处是找到的成分都是有用的，如果存在负数，那么成分可能会比较乱。9可以是8去掉一个“圈”再加上一个“竖”，而实际上9表示为一个“圈”+“竖”更合理。

（3）其他降维算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习17：Unsupervised Learning-Linear Methods

一、聚类1、K-means初始化时，随机抽取K个样本作为聚类中心2、（hierarchical agglomerative clustering）HAC合成聚类or分层聚类自底向上每一层进行两两相似度计算，找到最相近的pairs，直到root，然后画一个threshold，即可划分具体类别。不同的shreshold导致类的个数不相同。二、Dimension Reduct...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。