推荐系统论文:Personalized News Recommendation Based on ClickBehavior


前言

《Personalized News Recommendation Based on Click Behavior》是一篇利用用户点击行为进行个性化新闻推荐的论文。
该论文首先分析谷歌新闻中的用户点击记录,接着通过贝叶斯方法综合用户个人对新闻类别的点击历史(即稳定兴趣genuine interests)以及用户群体对新闻类别的点击历史(即新闻趋势news trend)来构建当前用户画像(Profile),最后通过结合基于新闻内容的推荐机制(Content-based recommendation)(新闻内容与用户兴趣做相似比较)以及协同过滤模型(collaborative filtering method)(相似用户推荐)构建个性化新闻推荐模型,并应用于谷歌推荐系统中,取得了不错的效果。


::以下是本篇文章正文内容

一、相关工作

二、用户兴趣的日志分析

1.数据集

来源:谷歌新闻已注册用户
时间:2007/7/1 到 2008/6/30 共计12个月
大小:16848个用户,每个用户每个月至少10次点击行为

2.点击分布

作者对12个月用户点击行为的分布进行如下表示:
用户每月点击分布
其中,D(u,t)代表用户 u 在时间段 t 内的点击分布;Ntotal 代表该时间段内总的点击次数;Ni 代表对某一类新闻的点击次数,i 代表新闻类别。最终意义即为对具体用户 u ,在时间段 t 内,各个类别新闻点击比例,即分布。

3.用户兴趣随时间的变化

用户兴趣随时间的变化
利用d1与dinf距离计算各个时间段与最后一个月的用户兴趣向量距离,结果如上。
可以看到,随着时间的推移,越久远的兴趣与用户当前的兴趣越不相似,相反,距离越近的月份与用户当前的兴趣越相近,可以认为用户兴趣确实随时间改变,同时更久远的点击历史对预测用户当前的兴趣帮助越小。

4.新闻趋势

对于新闻趋势,作者使用D(t)进行表示,即在时间段 t 内所有用户的点击统计(不是针对某一个用户),计算方法同D(u,t)。
美国用户兴趣随时间变化
体育新闻兴趣变化
由以上两图可以得到结论:
一个国家公众的兴趣变化往往对应于该国的重大新闻事件。
不同地点存在不同的新闻趋势。

5.新闻趋势对用户兴趣的影响

新闻趋势影响用户兴趣
可以看到,在同一地区,用户的兴趣往往与当前的新闻趋势(大众兴趣)相近,可以认为用户兴趣受新闻趋势的影响。

6.结论

1.个人用户的新闻兴趣确实随着时间的推移而改变,时间越长,兴趣改变越大。
2.一般公众的点击分布反映了新闻趋势,与大新闻事件相对应。
3.不同地点存在不同的新闻趋势。
4.在一定程度上,个人用户的新闻兴趣与用户所属位置的新闻趋势相对应


三、用户兴趣预测

1.用户真实兴趣计算

作者利用贝叶斯公式进行用户真实兴趣计算,计算公式如下:
用户兴趣贝叶斯展开
用户兴趣即给定新闻类别category = ci的情况下,计算用户点击的概率,概率越大即代表用户对当前类别越感兴趣。
通过贝叶斯展开,可以看到用户兴趣计算公式由三项组成:
Pt(category = ci | click) 是用户点击某一类新闻 ci 的概率,它能够利用用户的点击分布D(u,t)得到。
Pt(click) 是在不考虑新闻类别时,用户点击新闻的先验概率。
Pt(category = ci) 是一篇文章为类别 ci 的先验概率,意义为在一段时间内该类新闻文章的比例,但常常该比例是未知的,在此,可以使用群众兴趣分布 D(t) 来进行预测。因为当在某一领域有更多的新闻事件发生时,该类别的新闻数量会增加,并导致用户兴趣的转移,即可以使用 D(t) 来进行间接预测。

该公式有着显著的意义,它不仅考虑了用户点击新闻类别的概率,同时考虑了大众的整体新闻趋势,这是十分重要的。
因为在某一时间段内,用户大量阅读的新闻(即Pt(category = ci | click)较大)不一定是用户的兴趣所在。
可能是Pt(category = ci) 也大,即该类为流行新闻,导致用户大量阅读。

2.综合用户真实兴趣

经由贝叶斯公式的推导,我们得到了用户兴趣随时间的分布,为了得到用户的稳定兴趣,需要综合各个时间段的兴趣,用户真实兴趣公式如下:
用户真实兴趣公式
假设用户点击新闻文章的概率随时间是一致的,则可以把 p(click) 提取出来,作为常数。
用户兴趣公式

此公式意在综合以往的各时段的兴趣来生成用户的稳定兴趣,却又不是简单的加和求平均值。
考虑数据量(点击次数)越大的时段兴趣预测更准确,所以用点击次数进行归一化操作,确保预测更准确。
此外,还可以考虑利用时间信息,即越久远的统计信息越不可信,权值越小。

3.预测用户当前兴趣

为了预测用户将来的点击分布,在作者提出的方法中,需要综合考虑用户的稳定兴趣以及当前的新闻趋势。当前的新闻趋势使用 p0(category = ci) 进行表示,目标点击预测用 p0(category = ci | click)来进行表示,贝叶斯推导如下:
目标点击分布贝叶斯推导
其中,p0(click | category = ci) 可以认为是用户的兴趣,即 interest(category = ci),可以用式(5)计算得到,另一方面, 当前的新闻趋势 p0(category = ci) 由大众最近一段时间(如一小时)的点击分布得到(在作者的实验中,用户数较多,有较多的点击信息)。
从直观上理解,可以认为该公式目标是得到用户未来点击的分布,方法即将用户的长期兴趣以及当前的新闻趋势进行相乘得到用户点击各个类别的概率,综合考虑了interest与trend。

将表达式展开:
展开公式
平滑公式
在将公式展开后,作者通过加入小值常量G(取值10左右)来进行平滑,防止用户兴趣历史过少带来的影响,当历史过少,可以认为表达式右侧为1,最终的预测结果即为新闻趋势。

在结合模型方面,对基于上下文的方法设置分数 CR(article),对协同过滤模型设置CF(article),通过综合两模型进行最终打分:
打分机制


四、实验结果

实验结果
实验结果
实验结果
用户更频繁的访问网页。
用户在网页停留的时间不变,但花在个性化推荐界面的时间增长。

五、总结

1.优点

对数据进行了分析,得到了关于用户兴趣的一些结论。

考虑了新闻的新颖性,即新闻当前的趋势(trend)。
Trend 应该是这篇文章的核心,在贝叶斯方法中,仅仅依据用户的历史来预测兴趣是不够的,需要综合考虑trend才能更准确地进行分析(分母);同时在预测用户点击行为中,也结合了用户兴趣以及当前trend来进行用户画像的构建。

2.缺点

文章提及了解到用户兴趣随时间的转变是十分重要的,但在贝叶斯推断中仅仅对兴趣进行了加和平均处理,没有刻画兴趣的转变(可能是用户兴趣往往随大事件变动,不好预测)。

用户兴趣随时间不断变动,越远的历史对兴趣的影响越小,公式4中应该考虑历史的权值。

仅仅用到了类别信息。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
协同捆绑推荐是一种通过深度学习算法将用户与物品集进行匹配的方法。这种方法可以为用户提供个性化的捆绑推荐,准确地满足用户的需求与兴趣。 在这种方法中,使用者的行为数据被采集并存储,例如购买记录、浏览历史、评分等。利用这些数据,可以建立一个用户-物品矩阵,其中行表示用户,列表示物品,矩阵元素则表示用户对物品的行为。通过分析用户-物品矩阵的模式与关联,可以预测用户对未来物品的偏好。 深度学习模型通常由多个层次的神经网络组成,通过学习和分类大量数据样本,能够提取出潜在的用户和物品特征。这些特征可以捕捉到更多的信息,用于计算用户与物品之间的相似度或相关度。通过比较用户特征与物品特征的差异,可以得出最合适的捆绑推荐。 协同捆绑推荐算法具有以下优点: 1. 个性化推荐:该算法可以根据用户的兴趣和偏好,为每个用户提供个性化的捆绑推荐,增加用户的满意度和体验。 2. 精准的匹配:通过深度学习算法,可以准确地计算用户与每个物品之间的匹配度,从而找到最佳的匹配项。 3. 时间效率:深度学习算法能够快速处理大规模的用户-物品矩阵,实现实时的捆绑推荐。 然而,协同捆绑推荐算法也存在一些挑战: 1. 数据稀疏性:用户对物品的行为数据通常是稀疏的,某些物品可能没有足够的数据支持,导致推荐的准确性有所降低。 2. 冷启动问题:当新用户或新物品加入系统时,缺乏充分的数据进行推荐,需要设计特殊的策略来解决这个问题。 3. 模型可解释性:深度学习算法在推荐过程中产生的结果往往难以解释,这可能对用户产生疑虑,影响用户的信任度。 综上所述,协同捆绑推荐算法通过深度学习模型实现用户与物品集之间的匹配,能够提供个性化且精准的捆绑推荐。然而,需要克服数据稀疏性、冷启动问题和模型可解释性等挑战,以进一步提高算法的效果和用户的满意度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值