LANCER : A Lifetime-Aware News Recommender System阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_50714222/article/details/133819753

在训练模型和向用户推荐新闻时没有考虑新闻的生命周期：它们没有考虑新闻之间的竞争来推断用户对新闻的偏好，也没有在推荐时考虑新闻的剩余生命周期。
2014年就有研究提出在新闻推荐中使用生命周期的概念，但是忽略了新闻只有与其他有重叠生命周期的新闻竞争才能被用户点击的特性。

🎞️研究内容

（1）通过观察提出新闻"生命周期"的概念，和两个假设：( i )新闻的生命期比其他类型的物品(如电影或电子商务产品)更短；( ii )为了获得用户的点击，新闻只与其他生命期未结束的实时新闻竞争，并且这些新闻的生命周期存在重叠(即有限竞争)。

（2）提出了一种新的新闻推荐方法，即生命周期感知新闻推荐系统LANCER，在训练和推荐过程中充分利用新闻的生命周期。

LANCER三个关键思想：

在竞争中考虑新闻：基于新闻的生命期，我们确定用户点击的新闻(正面新闻)比其它未被点击的新闻（负面新闻）更受用户青睐，后者的生命周期存在重叠（有限竞争）。
竞争新闻中的基于置信度的负采样：公户未点击的新闻中和正面新闻存在重叠周期。可以估计新闻的受欢迎程度的置信度来发现真正的负面新闻。例如，我们假设当不受欢迎的新闻没有被点击时，它更有可能是真正的负面新闻，因为用户可能不喜欢它。
考虑新闻剩余的生命周期：为了避免推荐生命期已经结束或快结束的新闻，通过考虑新闻剩余的生命周期来调整对新闻的预测偏好分数。通过这种调整，我们可以推荐具有预测偏好分数高和剩余生命期长的新闻。

（3）成功地证明了最新的新闻推荐模型可以通过整合生命周期的概念和LANCER获得显著增益。

🚩研究方法

(1)概念定义：

新闻的生命周期：从初始发布时间到最后点击时间，相对较短（几个小时）
有限竞争：新闻只与其他生命期未结束的且有时间重叠的新闻竞争，而不是和所有的新闻竞争。基于这些竞争训练的新闻推荐模型可以从中获益。

新闻数据集和电影/戏剧数据集的点击率对比

36hours vs 36 months

NRMS推荐新闻的发布时间统计

在新闻发布48h后依旧进行推荐，造成了推荐的浪费

(2)LANCER框架概述

1）考虑有时间重叠的新闻集(里面的新闻是竞争关系）并根据用户的点击分类 positive negative

例如：c没有重叠就不考虑
通过对新闻时间取交集来确定时间是否重叠
Finding news in competition with each other
Determining the positive/negative news

将用户点击的新闻视为她的positive。将她在与positive新闻竞争期间没有点击的新闻确定为她的negative。

例如：在ctime1期间，用户p只点击了d1B，因此，d1B和d1A分别被视为p的positive、negative新闻。

“B > A and C > B for p, thus C > B > A for p; B > C for q” “existing studies, the order of B = C > A”

之前研究存在问题：错误的排序、将无法判断的新闻分类错误negative

2）将不太流行的新闻即使置信度高(dD)也判定为用户u的negative。

Confidence-based Negative Sampling among Competing News

提出原因：部分没有点击的新闻不是用户不喜欢而是没有意识到它的存在。

目标：对未点击的新闻进行抽样，这些新闻可以确信是用户的负面新闻和相应的正面新闻

确定置信度：给用户未点击的新闻置信度，流行度越低，则相应的置信度越高

di、dj分别为用户u的正负新闻，pop(u,di,dj)指在用户u点击di前其他用户点击di的竞争新闻dj的总数

未来工作：流行度预测方法例如基于DL的模型（注意力网络）也可以独立地应用到我们的LANCER方法中，以确定对负新闻的置信度。

3）通过基于DL的模型NRMS对前面确定的positive/negative新闻训练来预测用户的偏好

Training the DL-based models

使用已有的深度模型NRMS、CNE-SUE进行训练。并使用下面的损失函数进行优化

4）考虑新闻的剩余生命周期对用户的偏好分数进行调整。（原本推荐dG，调整后推荐dF)

Consideration of Remaining Lifetime

利用sigmoid函数根据新闻的剩余生命周期降低用户的偏好分数。

🚩实验分析

数据集：MIND、Adressa

评估指标：AUC、MRR、NDCG

基准模型：NRMS (2019); LSTUR (2019); NAML (2019); CNE-SUE (2021).

实验结果：

Adressa:

MIND:

实验一：通过有限竞争来确定用户的负面新闻的有效性。

实验设计：设计了变体LANCERc,即只从与相应正面新闻有竞争关系的非点击新闻集中随机采样每个用户的K条非点击新闻。将其与原始方法（即Orig）进行了比较，后者在每个基础模型中都会随机采样每个用户的K条非点击新闻，而不考虑其生命周期。Imp样本从相应的正面新闻印象日志中随机抽取每个用户的K条非点击新闻。

实验结论：