数据预处理 与 词向量
特征降维与 特征度量
在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为 “维数灾难”。
1 线性判别分析 LDA
给定训练样例集,设法将样例投影到一条直线上,
使得:同类样例的投影点尽可能的接近,异类样本点尽可能的远离,
通过让同类样例的投影点的协方差尽可能小,使类中心之间的距离尽可能大,则可满足以上求解需求。
低维嵌入
通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易
要求原始空间中样本之间的距离在低维空间中得以保持,即得到“多维缩放”(MDS
2 主成成分分析 PCA
如何用一个超平面对所有样本进行恰当的表达
最近重构性:样本点到这个超平面的距离都足够近
最大可分性: 样本点在这个超平面上的投影能尽可能的分开
3 核化线性降维
非线性降维用于寻找恰当的低维嵌入,通过对原始属性空间中的样本点先进行核函数映 射到高维特征空间,再在特征空间中进行线性降维