机器学习17:Unsupervised Learning-Linear Methods

一、聚类

1、K-means

初始化时,随机抽取K个样本作为聚类中心

2、(hierarchical agglomerative clustering)HAC合成聚类or分层聚类

自底向上每一层进行两两相似度计算,找到最相近的pairs,直到root,然后画一个threshold,即可划分具体类别。不同的shreshold导致类的个数不相同。

二、Dimension Reduction降维

1、特征选择

2、PCA

原理:

实质是找到一组正交向量w,使得每个样本在这组向量上的投影分布的较分散(variance较大),即找到的向量使得样本具有好的可分性。如图中橙色宽的维度就是最主要成分,与之垂直的那个橙色维度次之。z表示的是x在每个维度的投影值。

求解:略

其他视角:

PCA寻找了一个重建样本损失最小的一组向量。可以看做是一个自编码器,且这个自编码器的hidden layer是线性激活函数。

弱点:

(1)非监督:PCA将不同类别的数据混合在一起寻找主成分,找到的投影variance最大的成分可能造成两类数据无法区分。如图所示,红色箭头表示寻找到的一个主成分,当真实数据属于LDA那一栏的情况时,PCA的分法就造成了混叠。LDA后续介绍。

(2)线性:如图中的S型数据,PCA会将其压扁分类,显然不能区分。这种情况需要采用非线性变换。

NMF(Non-negative matrix factorization):

NMF操作强制每个特征向量前的系数为正数,这样做的好处是找到的成分都是有用的,如果存在负数,那么成分可能会比较乱。9可以是8去掉一个“圈”再加上一个“竖”,而实际上9表示为一个“圈”+“竖”更合理。

 

(3)其他降维算法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值