1. 推荐系统中的数据挖掘流程
2. 数据预处理
(1) 相似性度量
欧式距离
闵可夫斯基距离
协方差距离(Mahalanobis distance)
Cosine distance
Pearson distance
常用的距离:Pearson distance 和 cosine distance
3. 采样 sampling、
参看数据挖掘的教材
4. 降维 ---Reducing dimansionality
主要功能:将已知数据转化成的低维的数据集,同时数据的主要特性不能发生变化
常用的降维的方法:SVD和PCA
PCA:
主要的思想: 进行主元分析,去掉那些相对重要性较低的元,达到降维的作用的,具体的实现方式见:
http://blog.csdn.net/scmyyan/archive/2011/02/26/6209231.aspx
SVD: