推荐系统论文

最新推荐文章于 2024-03-18 16:49:09 发布

hahakda

最新推荐文章于 2024-03-18 16:49:09 发布

阅读量702

点赞数

文章标签：算法

原文链接：https://arxiv.org/ftp/arxiv/papers/1205/1205.2618.pdf

版权

推荐系统：BPR论文阅读*

1. 介绍

《BPR: Bayesian Personalized Ranking from Implicit Feedback》讨论了个性化排序学习模型的一个通用方法：Bayesian Personalized Ranking。主要贡献有：
1.描述了通用的优化方法：BPR-OPT，它来自于对最优个性化排序的最大后验估计。展示了BPR-OPT在AUC上的分析。
2.对于最大化BPR-OPT，提出了通用学习算法LearnBPR，它基于SGD（随机梯度下降），在训练过程使用有放回抽样。展示了该算法会优于最优化BPR-OPT时的SGD。
3.我们展示了如何应用learnBPR到两个state-of-art推荐模型中
4.我们的实验经验上展示了个性化排序任务，使用BPR的模型效果要好于其它学习算法

3.个性化排序

个性化排序的任务，会为一个用户提供一个项目排序列表。这也被称为项目推荐。一个示例是，在线电商希望推荐一个个性化的项目排序列表，用户会从中购买。在本文中，我们会研究以下情形：排序必须从用户的隐式行为（例如：过去的购买）进行推断得到。隐式反馈系统只提供正例数据（正样本）。未被观察到(non-observed)的用户-项目对（例如：一个用户没有购买一个项目）会是一个真实负反馈（用户对购买该项目不敢兴趣）以及缺失值（用户可能会在将来购买该项目）的混合。

3.1 公式化

在这里插入图片描述图1: 在左侧，为已观察到的数据S。直接从S中学习是不可行的，因为只有正反馈被观察到。通常负例数据通过使用0值填充矩阵来生成

假设U是所有users的集合，I是所有items的集合。在我们的场景下，隐式反馈S⊆U×I（见图1左侧）。类似这种反馈方式有：电商中的购买行为，视频观看或者网页上的点击。推荐系统的任务是提供给用户一个个性化总排序(personlaized total ranking): >u⊂I2，其中>u必须满足一个总顺序属性：
请添加图片描述
totallity: 总体性。是I中所有数据
antisymmetry: 反对称性，正样本对角线为负
transitivity: 传递性
出于便利，我们也定义了：

3.2 问题分析

前面提到，在隐式反馈系统中只有正例(positive classes)被观察到。剩余数据其实是实际负例(negative)与缺失值（missing value）的一个混合。对于应付缺失值问题，最常见的方法是：忽略所有缺失值。通常典型的机器学习模型不能学习任何东西，因为他们两者间不能进行区分这两者(负例和缺失值)。

对于item推荐，常用的方法是，对一个item预测一个个性化分x^ui，它可以影响用户对该item的偏好。接着，该items会根据该分值进行排序。对于item推荐的机器学习方法，通常会从S中创建训练数据：给定：

正例：(u,i)∈S pairs
负例：所有在(U×I)∖S中的其它组合
如图1所示。接着，模型会拟合该数据。这意味着模型的最优化是为在S中的元素预测value是1, 其余为0。该方法的问题是，在模型中将来进行排序的所有元素（U×I∖S）在训练期间都会作为负反馈被表示给机器学习算法。这意味着：如果一个模型具有足够表现力（它可以精准拟合训练数据），它根本不能进行排序，因为它的预测值基本为全0(很稀疏，大部分为0, 全预测对）。为什么这样的机器学习方法可以预测排名？唯一原因是，有策略阻止过拟合，比如：正则化。

我们使用一种不同的方法：通过使用item pairs作为训练数据，然后为正确(correctly)的项目排名进行最优化（而非对单个items进行打分），因为这比使用负例来替代缺失值要更好。从S中，我们可以尝试为每个user parts（>u）进行重构。如果一个item i被user u观看过，（例如：(u,i)∈S）——那么，我们假设该user喜欢该item要胜过其它未观察到的items。请添加图片描述
图2: 在左侧，已观察到的数据S。我们的方法会在一个items pair间创建特定用户的pairwise偏好i>uj。在右侧，加号(+)表示一个用户偏爱item i胜过item j；减号(-)表示他偏爱j胜过i。

例如，在图2中，user u1已经观看过item i2，但没看过item i1，因此我们假设，该用户喜欢i2要胜过i1：i2>ui1。对于被一个用户同时观看过的两个items，我们不能推断更偏好哪个。对于用户未观看过的两个items来说（比如：对于user u1, item i1和i4），相类似，也不能推断哪个更好。为了将这种现象公式化，我们创建训练数据 DS:U×I×I：

DS:={(u,i,j)|i∈I+u∧j∈I∖I+u}
(u,i,j)∈DS的语义是，user u被假设成：喜欢i，胜过j。由于>u是非对称的，负例会被隐式对待。

我们的方法有两个优点：

1.我们的训练数据同时包含了正负例pairs以及缺失值。介于两个未观察到的项目间的缺失值是将来必须排序的项目对。这意味着，从对的角度看，训练数据DS和测试数据是不相交的。
2.为排序的实际目标函数创建训练数据，例如：观察到>u的子集DS被用成训练数据。

4.BPR

在这部分，我们为解决个性化排序任务生成了一种通用方法。对于个性化排序，它包含了通用优化准则：BPR-OPT，它源自对该问题的Bayesian分析，会使用似然函数来为p(i>uj∣Θ)以及模型参数p(Θ)的先验概率。我们展示了排序统计AUC的分析。对于遵循BPR-OPT的学习模型，我们提出了算法learnBPR。最后，我们会展示BPR-OPT和LearnBPR是如何应用到两个state-of-art的推荐算法（MF和adaptive kNN）上。比起常用的训练方法，使用BPR来优化这些模型可以生成更好的rankings。

4.1 BPR优化原则

为所有items i∈I寻找正确的个性化排序的Bayesian公式，是为了最大化以下后验概率，其中Θ表示一个指定模型类别(比如：MF)的参数向量。贝叶斯公式为：

                  P(Θ|>u)∝p(>u|Θ)p(Θ)

这里，>u是对于user u希望但隐含的偏好结构。所有用户都假设行为间相互独立。我们也假设：对于一个指定用户，每个items (i,j) pair的顺序，与每一个其它pair相互独立。因而，对于所有用户u∈U，以上的特定用户的似然函数p(>u∣Θ)可以首先被重写成：单个密度(densities)和第二个的乘积的组合。

∏u∈Up(>u|Θ)=∏(u,i,j)∈U×I×Ip(i>uj|Θ)δ((u,i,j)∈DS)⋅(1−p(i>uj|Θ))δ((u,j,i)∉DS
其中δ是指示函数：

δ(b):={10if b is true,else
归因于合理的pairwise ordering scheme的总体(totality)和非对称性(antisymmetry)，上述公式可以简化为：

∏u∈Up(>u|Θ)=∏(u,i,j)∈DSp(i>uj|Θ)
到目前为止，通常不会保证获得一个个性化的总顺序。为了得到它，必须满足之前提到过的合理性质（totality、antisymmetry、transitivity）。为了这样做，我们定义了一个用户喜欢item i胜过item j的独立概率：

p(i>uj|Θ)=σ(x^uij(Θ))
其中：

σ是logistic sigmoid：σ(x):=11+e−x
x^uij(Θ)是一个特定的关于模型参数向量Θ的real-valued函数，它会捕获user u、item i、item j间的特殊关系。
换句话说，我们的通用框架会将建模在u、i、j间的关系的任务表示到一个底层模型类（比如：MF或adaptive kNN）上，它们负责估计x^{uij(Θ)。因而，统计方式建模一个个性化总顺序>u变得可行。出于便利，后续章节我们会跳过介绍来自x}xij的参数Θ。

至今，我们已经讨论了似然函数。为了补全个性化排序任务的Bayesian建模方法，我们引入了一个通用的先验密度p(Θ)，它是一个零均值、协方差矩阵∑Θ的正态分布。

p(Θ)∼N(0,∑Θ)
下面，为了减小未知超参数的数目，我们设置∑Θ=λΘI。现在，我们可以将最大后验估计进行公式化，来生成我们为个性化排序BPR-OPT的通用最优化准则：

BPR−OPT:=ln p(Θ|>u)=ln p(>u|Θ)p(Θ)=ln ∏(u,i,j)∈DSσ(x^uij)p(Θ)=∑(u,i,j)∈DSln σ(x^uij)+ln p(Θ)=∑(u,i,j)∈DSln σ(x^uij)−λΘ∥Θ∥2
其中λΘ是模型特定的正则化参数。

4.1.1 AUC最优化分析
有了Bayesian Personalized Ranking(BPR) scheme的公式，很容易理解BPR和AUC间的分析。每个用户的AUC通常被定义为：

AUC(u):=1|I+u||I∖I+u|∑i∈I+u∑j∈|I∖I+u|σ(x^uij>0)
这里，平均AUC是：

AUC:=1|U|∑u∈UAUC(u)
…(1)

其中, zu是归一化常数：

zu=1|U||I+u||I∖I+u|
在(1)和BPR

欢迎使用Markdown编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

这将产生一个流程图。:

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

hahakda

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
推荐系统论文

推荐系统：BPR论文阅读*1. 介绍《BPR: Bayesian Personalized Ranking from Implicit Feedback》讨论了个性化排序学习模型的一个通用方法：Bayesian Personalized Ranking。主要贡献有：1.描述了通用的优化方法：BPR-OPT，它来自于对最优个性化排序的最大后验估计。展示了BPR-OPT在AUC上的分析。2.对于最大化BPR-OPT，提出了通用学习算法LearnBPR，它基于SGD（随机梯度下降），在训练过程使用有...
复制链接

扫一扫