第2章 推荐系统中的数据挖掘方法
数据挖掘的三个步骤:
1、数据预处理
2、数据分析
3、结果解释
距离度量方法:
1、欧氏距离
2、Jaccard距离(1-SIM(x,y))
3、余弦距离(表示为0到180之间的度数)
4、编辑距离(长度之和减去最长公共子序列)
5、海明距离(两个向量中不同分量的个数)
6、马氏距离
抽样方法:
n折交叉校验【适应与数据量小,方差大的情况】
降维方法:
1、主成分分析(PCA)
2、奇异值分解(SVD)
分类方法:
1、最近邻
2、决策树
3、基于规则的分类
4、贝叶斯分类器
5、人工神经网络
6、支持向量机
评估分类器指标:
1、精确度
2、准确率
3、召回率
聚类:
可以提高效率,但不大可能提高精确度,方法有k-means
本文为学习笔记,参考资料为
《推荐系统 技术、评估及高效算法 Recommender System handbook》FrancescoRicci Lior Rokach 机械工业出版社
欢迎交流与分享