一、聚类
1、K-means
初始化时,随机抽取K个样本作为聚类中心
2、(hierarchical agglomerative clustering)HAC合成聚类or分层聚类
自底向上每一层进行两两相似度计算,找到最相近的pairs,直到root,然后画一个threshold,即可划分具体类别。不同的shreshold导致类的个数不相同。
二、Dimension Reduction降维
1、特征选择
2、PCA
原理:
实质是找到一组正交向量w,使得每个样本在这组向量上的投影分布的较分散(variance较大),即找到的向量使得样本具有好的可分性。如图中橙色宽的维度就是最主要成分,与之垂直的那个橙色维度次之。z表示的是x在每个维度的投影值。
求解:略
其他视角:
PCA寻找了一个重建样本损失最小的一组向量。可以看做是一个自编码器,且这个自编码器的hidden layer是线性激活函数。
弱点:
(1)非监督:PCA将不同类别的数据混合在一起寻找主成分,找到的投影variance最大的成分可能造成两类数据无法区分。如图所示,红色箭头表示寻找到的一个主成分,当真实数据属于LDA那一栏的情况时,PCA的分法就造成了混叠。LDA后续介绍。
(2)线性:如图中的S型数据,PCA会将其压扁分类,显然不能区分。这种情况需要采用非线性变换。
NMF(Non-negative matrix factorization):
NMF操作强制每个特征向量前的系数为正数,这样做的好处是找到的成分都是有用的,如果存在负数,那么成分可能会比较乱。9可以是8去掉一个“圈”再加上一个“竖”,而实际上9表示为一个“圈”+“竖”更合理。
(3)其他降维算法