推荐算法：协调过滤初级_2：基于领域的方法

最新推荐文章于 2022-09-04 16:47:45 发布

LandscapeMi

最新推荐文章于 2022-09-04 16:47:45 发布

阅读量1.1k

点赞数

分类专栏：推荐算法

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/51536982

版权

推荐算法专栏收录该内容

25 篇文章 0 订阅

订阅专栏

协同过滤
1. 基于领域的方法
  ok@@@Empirical analysis of predictive algorithms for collabotive filtering
  ok@@@Toward the next generation of recommender system: A survey of the state-of -the -art and possible extensions
  ok@@@Evaluation of Item-based Top-N Recommendation Algorithms
  (a) user-based
  ok@@@ GroupLens:applying collative filtering to Usenet news
  ok@@@Recommending and Evaluting chices in a virtual community of use
  ok@@@ Social information filtring:Algorithm for automating “word of mouth”
  (b) item-based
  ok@@@ Item-based top-N recommendation algorithms
  ok@@@ Amazon.com Recommendations: Item-to-Item Collabotive filtering
2. 基于模型的方法
基于领域的方法：在预测中直接使用已有的数据
基于模型的方法：使用评分生成预测模型
(a) 贝叶斯聚类
@@@ Empirical analysis of predictive algorithms for collabotive filtering
(b) 潜在语义分析(LSA)
@@@Collative filtering via Guassian probabilistic latent sematic analysis
(c) 潜在狄利克雷(LDA)
@@@ Latent dirichlet allocation
(d) 最大熵
@@@ Maximun entropy for collaborative filtering
(e) 玻尔兹曼机
Restricted Bolzman machines for collaborative
(f) 支持向量机
KNN versus SVM in the Collaborative filtering framework
(g) 奇异值分解
@@@ Modeling relationship at multiple scales to improve accuracy of large recommender systems
@@@Factorization meets the neighborhood: a multifaceted collaborative filtering model
@@@ Collabotive filtering with temporal dynamics
@@@ Matrix factorization and neighbor based algorithms for netflix prize problem
@@@Investigation of various matrix factorization methods for large recommender system
@@@ Scalable collaborative filtering approaches for large recommender system

(h)Factorization machine（LibFM）
@@@Factorization machines with LibFM
(i) 深度学习
@@@Collaborative Deep Learning for Recommender Systems

领域算法和模型算法的比较

精度上模型优于领域
@@@Factorization meets the neighborhood: a multifaceted collaborative filtering model
@@@Major components of the gravity recommendation system
惊喜度方面领域算法优
@@@ Combining collaborative filtering with personal agents for better recommendations
新颖度: 推荐给用户一个他喜欢的导演，但是他没有想到的电影
惊喜度：完全没想到
领域算法的优势
1. 简单
2. 合理
3. 高效
4. 稳定

领域推荐

基于用户评分

基于领域用户：预测用户 $u$ 对物品 $i$ 的评分 $r_{ui}$ ；利用和用户 $u$ 兴趣相近且对物品 $i$ 做出评分的用户；
$w_{uv}$ 是用户 $u$ 和 $v$ 的兴趣相近程度
用户的 $k$ 近邻：k个与用户 $u$ 相似度 $w_{uv}$ 最高的用户 $v$ , 表示为 $N(u)$
选择k个和用户 $u$ 兴趣相近似且对物品 $i$ 已经评价过的用户代替 $k$ 近邻，表示为 $N_i(u)$

** 用户预测的评分 $r_{ui}$ ，用 $k$ 近邻用户的评价得分

$\hat{r}_{ui}=\frac{1}{|N_i(u)|}\sum_{v \in N_i(u)} r_{vi}$
( $|N_i(u)|$ 表示个数)

** 添加权值

$\hat{r}_{ui}=\frac{\sum_{v \in N_i(u)} w_{uv} r_{vi}}{\sum_{v \in N_i(u)} |w_{uv}|}$

** 上式没有考虑到用户使用不同的评价尺度。将 $r_{vi}$ 进行标准化的转换 $h(r_{vi})$
$\hat{r}_{ui}=h^{-1}[\frac{\sum_{v \in nN_i(u)} w_{uv}h(r_{vi})}{\sum_{v \in N_i(u)}|w_{uv}|}]$

OK@@@ Empirical analysis of predictive algorithms for collabotive filtering

基于用户分类

上述是通过对领域用户的评分加权平均计算，本质是回归

基于物品推荐

基于用户推荐是依赖于和自己兴趣相同的用户来预测一个评分
基于物品推荐是通过评分相似的物品来预测

$N_u(i)$ ：用户u 已经评分且和物品 $i$ 评分相近的物品
用户 u 对物品 i 的评分时用户 $N_u(i)$ 中物品的评分的加权平均
$\hat{r}_{ui}=\frac{\sum_{j \in N_u(i)} w_{ij}r_{uj}}{\sum_{j \in N_u(i)}|w_{ij}|}$

不同用户拥有不同的评分尺度

$\hat{r}_{ui}=h^{-1}[\frac{\sum_{i \in nN_u(i)} w_{ij}h(r_{uj})}{\sum_{v \in N_u(i)}|w_{ij}|}]$

基于物品推荐的分类

基于用户和基于物品的对比

* 准确性

推荐系统的准确性很大程度取决于系统中用户和物品数之间的比例
用户数量大，物品少，Amazon等，基于物品的推荐
用户数量少，物品多，论文推荐等，基于用户的推荐

* 效率

推荐系统的内存和计算效率也依赖于用户和物品的数量比例

* 稳定性

如果物品的列表稳定性高于用户，那么使用基于物品的推荐效果更好
反之

* 合理性

基于物品的推荐，很理性强

* 惊喜度

基于用户的方法，惊喜度高

近邻方法的要素

评分标准化
效率
近邻的选择

* 评分标准化

均值中心化

（1）基于用户的原公式

$\hat{r}_{ui}=\frac{\sum_{v \in N_i(u)} w_{uv} r_{vi}}{\sum_{v \in N_i(u)} |w_{uv}|}$

$\hat{r}_{ui}=h^{-1}[\frac{\sum_{v \in nN_i(u)} w_{uv}h(r_{vi})}{\sum_{v \in N_i(u)}|w_{uv}|}]$

设均值平均化评分

$h(r_{ui})=r_{ui} - \bar{r}_u$

$\hat{r}_{ui}=\bar{r}_u+\frac{\sum_{v \in N_i(u)}w_{uv}(r_{vi}-\bar{r}_v)}{\sum_{v \in N_i(u)}|w_{uv}|}$

（2）基于物品的原公式

$\hat{r}_{ui}=\frac{\sum_{j \in N_u(i)} w_{ij}r_{uj}}{\sum_{j \in N_u(i)}|w_{ij}|}$

$\hat{r}_{ui}=h^{-1}[\frac{\sum_{i \in nN_u(i)} w_{ij}h(r_{uj})}{\sum_{v \in N_u(i)}|w_{ij}|}]$

设均值平均化评分
$h(r_{ui})=r_{ui} - \bar{r}_i$

$\hat{r}_{ui}=\bar{r}_u+\frac{\sum_{j \in N_u(i)}w_{ij}(r_{uj}-\bar{r}_j)}{\sum_{j \in N_u(i)}|w_{ij}|}$

Z-score标准化

考虑到个人的评分范围带来的差异性

(1) 基于用户

$h(r_{ui}) = \frac{r_{ui-\bar{r}_u}}{\sigma_u}$

$\hat{r}_{ui}=\bar{r}_u+\sigma_u \frac{\sum_{v \in N_i(u)} w_{uv}(r_{vi}-\bar{r}_v)/ \sigma_v}{\sum_{v \in N_i(u)}|w_{uv}|}$

(2) 基于物品

$h(r_{ui}) = \frac{r_{ui-\bar{r}_i}}{\sigma_i}$

$\hat{r}_{ui}=\bar{r}_i+\sigma_i \frac{\sum_{j \in N_u(i)} w_{ij}(r_{ui}-\bar{r}_j)/ \sigma_j}{\sum_{j \in N_u(i)}|w_{ij}|}$

基于用户偏好的过滤
@@@learning to order things
@@@ An efficient boosting algorithm for combining preference
@@@ collabotive filtering with decoupled models for preferences and ratings
@@@preference-based graphic models for collaborative filtering

相似度的计算

余弦相似度

$CV(u,v)=cos(x_u,x_v)=\frac{\sum_{i \in T_{uv}}r_{ui}r_{vi}}{\sqrt{\sum_{i \in T_u}r^2_{ui}\sum_{j \in T_v} r^2_{vj}}}$

$T_{uv}$ 是用户u和用户v都评价过的物品

未考虑用户u和v评分的均值和方差间的差异

调整后的相似度

(1) 用户相似度
$PC(u,v)=\frac{\sum_{i \in T_{uv}}(r_{ui}-\bar{r}_u)(r_{uj}-\bar{r}_v)}{\sqrt{\sum_{i \in T_{uv}}(r_{ui}-\bar{r}_u)^2 \sum_{i \in T_{uv}}(r_{uj}-\bar{r}_v)^2}}$

(2) 物品相似度
$PC(i,j)=\frac{\sum_{u \in u_{ij}}(r_{ui}-\bar{r}_i)(r_{uj}-\bar{r}_j)}{\sqrt{\sum_{u \in u_{ij}}(r_{ui}-\bar{r}_i)^2\sum_{u \in u_{ij}}(r_{ij}-\bar{r}_v)^2}}$

其他相似度方法

ok@@@An empirical analysis of design choices in neighborhood-based collaborative filtering

均方差（不合适）
斯皮尔曼等级关联（SRC）

$src(u,v) = \frac{\sum_{i \in T_{uv}}(k_{ui}-\bar{k}_u)(k_{vi}-\bar{k}_v)}{\sqrt{\sum_{i \in T_{uv}}(k_{ui}-\bar{k}_u)\sum_{i \in T_{uv}}(k_{vi}-\bar{k}_v)}}$

$k_ui$ 是物品 $i$ 在用户 $u$ 所评分的排名
排名绕开了标准化的问题。但是当评分只是少数的时候，这种方法会产生大量的并列排名

@@@ rank correlation methods

相似度的重要性

例如：用户评分相等，则认为用户相同，实际上用户对不同物品有不同的喜欢，只是计算后的数值相同。
相似度权重要性: 当只有少数评分用于计算时，会降低相似度的权值
ok@@@An algorithmic framework for performing collaborative filtering
ok@@@Effective missing data prediction for collaorative filitering
当两个人共同评价的物品数， $T_{uv}$ 小于 $\gamma$ , 则相似度 $w_{uv}$ :

$w_{uv}^{'}=\frac{min\{|T_{uv}|,\gamma\}}{\gamma}* w_{uv}$
用户评分过少的物品间的相似度

$w_{ij}^{'}=\frac{min\{|u_{ij}|, \gamma\}}{\gamma}* w_{ij}$

当 $r>=25$ 可以显著提高预测评分的准确性，其中 $\gamma=50$ 为最佳
收缩
@@@modeling relationships at multiple scales to improve accuracy of large recommender system
贝叶斯观点下，少量评分情况下的用户相似度权值：
$w_{uv}^{'}=\frac{|T_{uv}|}{|T_{uv}|+\beta}*w_{uv}$
$\beta$ 通常需要交叉验证，文献中介绍，优化的值是 $\beta = 100$

差异的说明

ok@@@ Empirical analysis of predictive algorithms for collabotive filtering

用户给出一致的喜欢与不喜欢，不如给出差异较大的评分，可以提供更多的信息
反用户频率
1. 每个物品 $i$ 被赋予权重 $\lambda_i$
2. $\lambda_i = log \frac{|u|}{|u_i|}$
3. 评论了物品 $i$ 的用户比例
频率加权皮尔逊系数

$FWPC(u, v) = \frac{\sum_{i \in T_{uv}}\lambda_i(r_{ui}-\bar{r}_u)(r_{vi}-\bar{r}_v)}{\sqrt{\sum_{i \in T_{uv}}\lambda_i(r_{ui}-\bar{r}_u)^2\sum_{i \in T_{uv}}\lambda_i(r_{vi}-\bar{r}_v)^2}}$

补充
OK@@@ an automatic weighting sheme for collbarative filtering

领域的选择

全局过滤选择最有可能的n个物品
每一步选择最有可能的n个物品
k的选择
1. k<=20的时候，预测精度低
2. k>50后重要关联下降

缺点

覆盖受限
用户近邻的数目很少
数据稀疏

1.冷启动
@@@methods and metric for cold-start recommendations

2 .解决办法：
(1) 用默认数据区填充
评分用户的中值，物品或者用户的平均分
ok@@@Emprical analysis of predictive algorithms for collaborative filtering
ok@@@item-based weighted top-Nrecommender system
(2) 内容信息去填充
ok@@@a content-collaborative recommender that exploits wordnet-based user porfile for neighborhood formation
ok@@@combining coolaborative filtering with personal agents for better recommendations
ok@@@ content-based collaborative filtering for improved recommendations
(3)filterbots自动填充
ok@@@combining coolaborative filtering with personal agents for better recommendations
ok@@@Grouplens:applying coolaborative filtering to usenet news
（4）内容相似性替代和补充评分关联性
OK@@@Learning collaborative information filters
OK@@@Combining usage,content and structrue data to improve web site rcommendation
OK@@@ A framework for collaborative ,content-based and demographic filtering.
@@@Combining content and collaboration in text filtering