推荐系统-论文阅读笔记(1)-A survey on CF based recommender system

1.A Survey of Collaborative Filtering-Based Recommender Systems for Mobile Internet ApplicationsZ. Yang, B. Wu, K. Zheng, X. Wang and L. Lei, "A Survey of Collaborative Filtering-Based Recommende...
摘要由CSDN通过智能技术生成

1.A Survey of Collaborative Filtering-Based Recommender Systems for Mobile Internet Applications

 

Z. Yang, B. Wu, K. Zheng, X. Wang and L. Lei, "A Survey of Collaborative Filtering-Based Recommender Systems for Mobile Internet Applications," in IEEE Access, vol. 4, pp. 3273-3287, 2016.

这篇论文对基于协同过滤的推荐系统进行了调研。

 

推荐算法

所有用户都可以利用自己的终端(手机、电脑等)产生数据,并发布在网络上供其他用户浏览。而从内容接收者的角度来看,如此海量的数据使得他们越来越难从中找到自己感兴趣的内容。因此,为了增加用户黏性,有必要通过适当的推荐算法,来分析用户的兴趣,并向他们推送其最可能感兴趣的内容。

推荐算法主要可分为两类:基于内容的推荐和协同过滤推荐。

基于内容的推荐(content-based),就是从用户已浏览过的内容中,总结出用户的兴趣特点,并据此向用户推荐具有相同属性的内容。这一方法主要面临两个问题:第一,对于新用户不友好,即“冷启动”问题;第二,利用内容本身的属性进行推荐,就意味着需要用一些特征来对内容的属性进行描述,而这特征通常是人工设计的,并不一定能真实完整地反映人们在选择感兴趣内容时的选择标准。

协同过滤(collaborative filtering),只利用用户对他们观看过的内容的评分进行推荐。它基于这样的假设:如果两个用户对相同内容的评分非常接近,那么他们可能有着相似的兴趣,从而一个用户喜欢的内容很可能也得到另一个用户的青睐。对于那些无法获取用户信息和内容信息的系统来说,基于内容的推荐是无法使用的,而协同过滤则是一个可行的选择。另外,基于内容的推荐常面临过度专门化(over-specialization)的问题,即给用户推荐的内容都太过相似,缺乏新意。而协同过滤可以很好的解决这一问题。

 

协同过滤系统框架

如下图所示。

一个协同过滤系统主要有三部分组成:数据收集,数据预处理,以及协同过滤推荐。

A.数据收集

这是协同过滤的基础环节。收集到的信息主要可以分为以下4种:

1.人口登记信息:许多应用都要求用户在其服务器上注册账号,并填写包括姓名、性别、电话、职业、爱好等的个人信息。

2.内容标签:内容提供商经常对它们的内容进行标签分类,以便用户根据自己的情况,更方便地获取想要的内容。

3.用户行为:比如用户访问了哪些网站,一首歌听了多长时间,等等。

4.用户评分

协同过滤常常在用户个人信息和内容信息不可获得的情况下。此时,只有用户行为和用户评分可以使用,用户行为包含着用户对于内容的内在反馈,而评分则是用户对于内容的外化反馈。两种信息对比如下:

B.数据预处理

收集到的数据不能直接用于协同过滤,需要先进行一些预处理。

1.数据清洗:清除一些错误的数据。这错误可能是由于客观原因导致,比如系统故障或者网络断开等;也可能由主观原因导致,比如有些用户会进行随机的评分/全好评/恶意差评等,这样的评分信息是不能用的。可以使用某些检测算法来区分哪些评分是可靠的。

2.内在评分生成:如前所述,用户评分是用户对内容的外化评价,而用户行为则蕴含着用户对于内容的内在评价。由于评分数据通常是稀疏的,为了增加数据量,需要用某种方式将用户行为转换为外化的评分,从而用于协同过滤。可以用同时带有用户行为和用户评分记录的训练数据,训练一个预测模型,输入特定的用户行为,该模型可以预测可能的用户评分,如下图所示。

3.数据整合:将外化和内在的用户评分整合成一个评分矩阵,如下图所示,可见其中还有很多空缺值,需要通过协同过滤进行预测。

C.协同过滤:

首先介绍衡量协同过滤算法性能的3个指标:

1.预测准确率(prediction accuracy):将用户数据分成两部分,一部分用于进行预测,另一部分用于测试预测的准确率。衡量准确率常用的指标有:MAE和RMSE。

\begin{align} MAE=&\frac {\sum _{(u,i)\in R_{test}}|R_{u,i}-R'_{u,i}|}{|R_{test}|}, \\[4pt] RMSE=&\sqrt {\frac {\sum _{(u,i)\in R_{test}}|R_{u,i}-R'_{u,i}|}{|R_{test}|}}, \end{align}

其中Rtest表示测试数据集,R(u,i)表示用户u对物品i的实际评分,R'(u,i)表示预测值。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值