-
学习熟悉R语言相关的知识,看完慕课网上R语言入门教学视频,进阶材料是《R语言实战》,随用随查。
-
了解学习当前主流的降维方法。
- 主成分分析(PCA)
- 将原始变量转换为一小部分反映事物主要性质的变量;
- 选择确定的几个方向将源高维数据投影到低维空间,降维后数据间方差最大;
- 事先要求解关于样本数据的协方差矩阵,继而求解特征值与特征向量;
- 所有样本统一对待,忽略类别属性;
- 线性判别分析(LDA)
- 投影到低维空间后的能将低维数据的数据特征拉开(类内间距最小,类间间距最大),有利于分类;
- 典型相关分析(CCA)
- 是PCA在两组变量上的推广,为每组变量寻找相应投影向量,使之在投影后的低维空间中相关性最大;
- 随机投影(RP)
- Johnson-Lindenstrauss Lemma是RP的理论基础;
- 投影矩阵随机产生,减小计算开销;
- 如何选取合适的投影矩阵是降维效果好坏的关键;
- 主成分分析(PCA)
-
随机投影(RP)的原理了解的差不多了,其中的一些数学细节还需要再看。
-
在考虑如何获取比较符合条件的高维数据集,电商的好数据没法搞到手啊,倒是有一些提供数据集的免费平台,找找看看吧,这件事目前还不处于优先考虑范畴。
-
可能纯用R来实现整体不太现实,不排除使用其它工具的可能,比如python。
by gromit
01/05/2016