1.Content based
TF-IDF
Term Frequency - Inverse Document Frequency
词频-逆向文件频率
倾向于过滤掉常见的词语,保留重要的词语
i 指术语(特征),j 指文件(项目)
D是文件(项目)的集合,分母部分指术语t出现过的文件的集合
这里的分子母分部分均指集合元素数量数量统计
通常选用得分最高的几个术语作为标签进行推荐
2.Collaborative
Collaborative Filtering 协同过滤
假设我们要推荐产品给用户x,
首先找到n个产品反馈相似的(评分、购买、反馈相似)其他的用户
通过这些用户对x的评价来进行推荐
寻找相似用户的方法
Jaccard 相关系数
J=|A∩B|/|A∪B|
Cosine similarity measure 余弦相似度
n维
Pearson correlation coefficient 皮尔森相关系数
或
注意这里求得的相似度可能为负值
3.Latent factor based
潜在因子算法
RMSE 均方根误差
Root Mean Square Error
此方法另外找时间详细描述
我认为其基本思想基于最小二乘法 http://blog.csdn.net/joshualiunsw/article/details/52223887
其实就是个多维的最小二乘
Regularization
正则化
主要的思想是避免预测向量(函数)过拟合,因此要限制pq的过大波动
通常的方法是在最小化的误差函数上加上参数值(梯度)的长度的影响