- 协同过滤
- 基于领域的方法
ok@@@Empirical analysis of predictive algorithms for collabotive filtering
ok@@@Toward the next generation of recommender system: A survey of the state-of -the -art and possible extensions
ok@@@Evaluation of Item-based Top-N Recommendation Algorithms
(a) user-based
ok@@@ GroupLens:applying collative filtering to Usenet news
ok@@@Recommending and Evaluting chices in a virtual community of use
ok@@@ Social information filtring:Algorithm for automating “word of mouth”
(b) item-based
ok@@@ Item-based top-N recommendation algorithms
ok@@@ Amazon.com Recommendations: Item-to-Item Collabotive filtering - 基于模型的方法
- 基于领域的方法
- 基于领域的方法:在预测中直接使用已有的数据
- 基于模型的方法:使用评分生成预测模型
(a) 贝叶斯聚类
@@@ Empirical analysis of predictive algorithms for collabotive filtering
(b) 潜在语义分析(LSA)
@@@Collative filtering via Guassian probabilistic latent sematic analysis
(c) 潜在狄利克雷(LDA)
@@@ Latent dirichlet allocation
(d) 最大熵
@@@ Maximun entropy for collaborative filtering
(e) 玻尔兹曼机
Restricted Bolzman machines for collaborative
(f) 支持向量机
KNN versus SVM in the Collaborative filtering framework
(g) 奇异值分解
@@@ Modeling relationship at multiple scales to improve accuracy of large recommender systems
@@@Factorization meets the neighborhood: a multifaceted collaborative filtering model
@@@ Collabotive filtering with temporal dynamics
@@@ Matrix factorization and neighbor based algorithms for netflix prize problem
@@@Investigation of various matrix factorization methods for large recommender system
@@@ Scalable collaborative filtering approaches for large recommender system
(h)Factorization machine(LibFM)
@@@Factorization machines with LibFM
(i) 深度学习
@@@Collaborative Deep Learning for Recommender Systems
领域算法和模型算法 的比较
- 精度上模型优于领域
@@@Factorization meets the neighborhood: a multifaceted collaborative filtering model
@@@Major components of the gravity recommendation system - 惊喜度方面领域算法优
@@@ Combining collaborative filtering with personal agents for better recommendations - 新颖度: 推荐给用户一个他喜欢的导演,但是他没有想到的电影
惊喜度:完全没想到
领域算法的优势
- 简单
- 合理
- 高效
- 稳定
领域推荐
基于用户评分
- 基于领域用户:预测用户
u
对 物品
i 的评分 rui ;利用和用户 u 兴趣相近且对物品i 做出评分的用户; -
wuv
是用户
u
和
v 的兴趣相近程度 - 用户的
k
近邻:k个与用户
u 相似度 wuv 最高的用户 v , 表示为N(u) - 选择k个和用户
u
兴趣相近似且对物品
i 已经评价过的用户代替 k 近邻,表示为Ni(u)
** 用户预测的评分 rui ,用 k 近邻用户的评价得分
(
|Ni(u)|
表示个数)
** 添加权值
r^ui=∑v∈Ni(u)wuvrvi∑v∈Ni(u)|wuv|
** 上式没有考虑到用户使用不同的评价尺度。将
rvi
进行标准化的转换
h(rvi)
r^ui=h−1[∑v∈nNi(u)wuvh(rvi)∑v∈Ni(u)|wuv|]
OK@@@ Empirical analysis of predictive algorithms for collabotive filtering
基于用户分类
- 上述是通过对领域用户的评分加权平均计算,本质是回归
基于物品推荐
- 基于用户推荐是依赖于和自己兴趣相同的用户来预测一个评分
- 基于物品推荐是通过评分相似的物品来预测
Nu(i)
:用户u 已经评分且和物品
i
评分相近的 物品
用户 u 对物品 i 的评分时用户
r^ui=∑j∈Nu(i)wijruj∑j∈Nu(i)|wij|
- 不同用户拥有不同的评分尺度
r^ui=h−1[∑i∈nNu(i)wijh(ruj)∑v∈Nu(i)|wij|]
基于物品推荐的分类
基于用户和基于物品的对比
* 准确性
- 推荐系统的准确性很大程度取决于系统中用户和物品数之间的比例
- 用户数量大,物品少,Amazon等,基于物品的推荐
- 用户数量少,物品多,论文推荐等,基于用户的推荐
* 效率
- 推荐系统的内存和计算效率也依赖于用户和物品的数量比例
* 稳定性
- 如果物品的列表稳定性高于用户,那么使用基于物品的推荐效果更好
- 反之
* 合理性
- 基于物品的推荐,很理性强
* 惊喜度
- 基于用户的方法,惊喜度高
近邻方法的要素
- 评分标准化
- 效率
- 近邻的选择
* 评分标准化
- 均值中心化
(1)基于用户的原公式
r^ui=∑v∈Ni(u)wuvrvi∑v∈Ni(u)|wuv|
r^ui=h−1[∑v∈nNi(u)wuvh(rvi)∑v∈Ni(u)|wuv|]
设均值平均化评分
h(rui)=rui−r¯u
r^ui=r¯u+∑v∈Ni(u)wuv(rvi−r¯v)∑v∈Ni(u)|wuv|
(2) 基于物品的原公式
r^ui=∑j∈Nu(i)wijruj∑j∈Nu(i)|wij|
r^ui=h−1[∑i∈nNu(i)wijh(ruj)∑v∈Nu(i)|wij|]
设均值平均化评分
h(rui)=rui−r¯i
r^ui=r¯u+∑j∈Nu(i)wij(ruj−r¯j)∑j∈Nu(i)|wij|
- Z-score标准化
考虑到个人的评分范围带来的差异性
(1) 基于用户
h(rui)=rui−r¯uσu
r^ui=r¯u+σu∑v∈Ni(u)wuv(rvi−r¯v)/σv∑v∈Ni(u)|wuv|
(2) 基于物品
h(rui)=rui−r¯iσi
r^ui=r¯i+σi∑j∈Nu(i)wij(rui−r¯j)/σj∑j∈Nu(i)|wij|
- 基于用户偏好的过滤
@@@learning to order things
@@@ An efficient boosting algorithm for combining preference
@@@ collabotive filtering with decoupled models for preferences and ratings
@@@preference-based graphic models for collaborative filtering
相似度的计算
- 余弦相似度
CV(u,v)=cos(xu,xv)=∑i∈Tuvruirvi∑i∈Tur2ui∑j∈Tvr2vj√
Tuv 是用户u和用户v都评价过的物品
未考虑用户u和v评分的均值和方差间的差异
- 调整后的相似度
(1) 用户相似度
PC(u,v)=∑i∈Tuv(rui−r¯u)(ruj−r¯v)∑i∈Tuv(rui−r¯u)2∑i∈Tuv(ruj−r¯v)2√
(2) 物品相似度
PC(i,j)=∑u∈uij(rui−r¯i)(ruj−r¯j)∑u∈uij(rui−r¯i)2∑u∈uij(rij−r¯v)2√
其他相似度方法
ok@@@An empirical analysis of design choices in neighborhood-based collaborative filtering
- 均方差(不合适)
- 斯皮尔曼等级关联(SRC)
src(u,v)=∑i∈Tuv(kui−k¯u)(kvi−k¯v)∑i∈Tuv(kui−k¯u)∑i∈Tuv(kvi−k¯v)√
kui
是物品
i
在用户
排名绕开了标准化的问题。但是当评分只是少数的时候,这种方法会产生大量的并列排名
@@@ rank correlation methods
相似度的重要性
- 例如:用户评分相等,则认为用户相同,实际上用户对不同物品有不同的喜欢,只是计算后的数值相同。
相似度权重要性: 当只有少数评分用于计算时,会降低相似度的权值
ok@@@An algorithmic framework for performing collaborative filtering
ok@@@Effective missing data prediction for collaorative filitering当两个人共同评价的物品数, Tuv 小于 γ , 则相似度 wuv :
w′uv=min{|Tuv|,γ}γ∗wuv
用户评分过少的物品间的相似度
w′ij=min{|uij|,γ}γ∗wij
当 r>=25 可以显著提高预测评分的准确性,其中 γ=50 为最佳
收缩
@@@modeling relationships at multiple scales to improve accuracy of large recommender system
贝叶斯观点下,少量评分情况下的用户相似度权值:
w′uv=|Tuv||Tuv|+β∗wuvβ 通常需要交叉验证,文献中介绍,优化的值是 β=100
差异的说明
ok@@@ Empirical analysis of predictive algorithms for collabotive filtering
- 用户给出一致的喜欢与不喜欢,不如给出差异较大的评分,可以提供更多的信息
反用户频率
- 每个物品
i
被赋予权重
λi - λi=log|u||ui|
- 评论了物品 i 的用户比例
- 每个物品
i
被赋予权重
频率加权皮尔逊系数
- 补充
OK@@@ an automatic weighting sheme for collbarative filtering
领域的选择
- 全局过滤选择最有可能的n个物品
- 每一步选择最有可能的n个物品
- k的选择
- k<=20的时候,预测精度低
- k>50后重要关联下降
缺点
- 覆盖受限
用户近邻的数目很少 - 数据稀疏
1.冷启动
@@@methods and metric for cold-start recommendations
2 .解决办法:
(1) 用默认数据区填充
评分用户的中值,物品或者用户的平均分
ok@@@Emprical analysis of predictive algorithms for collaborative filtering
ok@@@item-based weighted top-Nrecommender system
(2) 内容信息去填充
ok@@@a content-collaborative recommender that exploits wordnet-based user porfile for neighborhood formation
ok@@@combining coolaborative filtering with personal agents for better recommendations
ok@@@ content-based collaborative filtering for improved recommendations
(3)filterbots自动填充
ok@@@combining coolaborative filtering with personal agents for better recommendations
ok@@@Grouplens:applying coolaborative filtering to usenet news
(4) 内容相似性替代和补充评分关联性
OK@@@Learning collaborative information filters
OK@@@Combining usage,content and structrue data to improve web site rcommendation
OK@@@ A framework for collaborative ,content-based and demographic filtering.
@@@Combining content and collaboration in text filtering
- 上述填充方法的缺点:
用默认数据区填充缺失数据会导致推荐的偏差
用内容填充的方法不适应计算评分或者相似性