推荐系统:BPR论文阅读*
1. 介绍
《BPR: Bayesian Personalized Ranking from Implicit Feedback》讨论了个性化排序学习模型的一个通用方法:Bayesian Personalized Ranking。主要贡献有:
1.描述了通用的优化方法:BPR-OPT,它来自于对最优个性化排序的最大后验估计。展示了BPR-OPT在AUC上的分析。
2.对于最大化BPR-OPT,提出了通用学习算法LearnBPR,它基于SGD(随机梯度下降),在训练过程使用有放回抽样。展示了该算法会优于最优化BPR-OPT时的SGD。
3.我们展示了如何应用learnBPR到两个state-of-art推荐模型中
4.我们的实验经验上展示了个性化排序任务,使用BPR的模型效果要好于其它学习算法
3.个性化排序
个性化排序的任务,会为一个用户提供一个项目排序列表。这也被称为项目推荐。一个示例是,在线电商希望推荐一个个性化的项目排序列表,用户会从中购买。在本文中,我们会研究以下情形:排序必须从用户的隐式行为(例如:过去的购买)进行推断得到。隐式反馈系统只提供正例数据(正样本)。未被观察到(non-observed)的用户-项目对(例如:一个用户没有购买一个项目)会是一个真实负反馈(用户对购买该项目不敢兴趣)以及缺失值(用户可能会在将来购买该项目)的混合。
3.1 公式化
图1: 在左侧,为已观察到的数据S。直接从S中学习是不可行的,因为只有正反馈被观察到。通常负例数据通过使用0值填充矩阵来生成
假设U是所有users的集合,I是所有items的集合。在我们的场景下,隐式反馈S⊆U×I(见图1左侧)。类似这种反馈方式有:电商中的购买行为,视频观看 或者 网页上的点击。推荐系统的任务是提供给用户一个个性化总排序(personlaized total ranking): >u⊂I2,其中>u必须满足一个总顺序属性:
totallity: 总体性。是I中所有数据
antisymmetry: 反对称性,正样本对角线为负
transitivity: 传递性
出于便利,我们也定义了:
3.2 问题分析
前面提到,在隐式反馈系统中只有正例(positive classes)被观察到。剩余数据其实是实际负例(negative)与缺失值(missing value)的一个混合。对于应付缺失值问题,最常见的方法是:忽略所有缺失值。通常典型的机器学习模型不能学习任何东西,因为他们两者间不能进行区分这两者(负例和缺失值)。
对于item推荐,常用的方法是,对一个item预测一个个性化分x^ui,它可以影响用户对该item的偏好。接着,该items会根据该分值进行排序。对于item推荐的机器学习方法,通常会从S中创建训练数据:给定:
正例:(u,i)∈S pairs
负例:所有在(U×I)∖S中的其它组合
如图1所示。接着,模型会拟合该数据。这意味着模型的最优化是为在S中的元素预测value是1, 其余为0。该方法的问题是,在模型中将来进行排序的所有元素(U×I∖S)在训练期间都会作为负反馈被表示给机器学习算法。这意味着:如果一个模型具有足够表现力(它可以精准拟合训练数据),它根本不能进行排序,因为它的预测值基本为全0(很稀疏,大部分为0, 全预测对)。为什么这样的机器学习方法可以预测排名?唯一原因是,有策略阻止过拟合,比如:正则化。
我们使用一种不同的方法:通过使用item pairs作为训练数据,然后为正确(correctly)的项目排名进行最优化(而非对单个items进行打分),因为这比使用负例来替代缺失值要更好。从S中,我们可以尝试为每个user parts(>u)进行重构。如果一个item i被user u观看过,(例如:(u,i)∈S)——那么,我们假设该user喜欢该item要胜过其它未观察到的items。
图2: 在左侧,已观察到的数据S。我们的方法会在一个items pair间创建特定用户的pairwise偏好i>uj。在右侧,加号(+)表示一个用户偏爱item i胜过item j;减号(-)表示他偏爱j胜过i。
例如,在图2中,user u1已经观看过item i2,但没看过item i1,因此我们假设,该用户喜欢i2要胜过i1:i2>ui1。对于被一个用户同时观看过的两个items,我们不能推断更偏好哪个。对于用户未观看过的两个items来说(比如:对于user u1, item i1和i4),相类似,也不能推断哪个更好。为了将这种现象公式化,我们创建训练数据 DS:U×I×I:
DS:={(u,i,j)|i∈I+u∧j∈I∖I+u}
(u,i,j)∈DS的语义是,user u被假设成:喜欢i,胜过j。由于>u是非对称的,负例会被隐式对待。
我们的方法有两个优点:
1.我们的训练数据同时包含了正负例pairs以及缺失值。介于两个未观察到的项目间的缺失值是将来必须排序的项目对。这意味着,从对的角度看,训练数据DS和测试数据是不相交的。
2.为排序的实际目标函数创建训练数据,例如:观察到>u的子集DS被用成训练数据。
4.BPR
在这部分,我们为解决个性化排序任务生成了一种通用方法。对于个性化排序,它包含了通用优化准则:BPR-OPT,它源自对该问题的Bayesian分析,会使用似然函数来为p(i>uj∣Θ)以及模型参数p(Θ)的先验概率。我们展示了排序统计AUC的分析。对于遵循BPR-OPT的学习模型,我们提出了算法learnBPR。最后,我们会展示BPR-OPT和LearnBPR是如何应用到两个state-of-art的推荐算法(MF和adaptive kNN)上。比起常用的训练方法,使用BPR来优化这些模型可以生成更好的rankings。
4.1 BPR优化原则
为所有items i∈I寻找正确的个性化排序的Bayesian公式,是为了最大化以下后验概率,其中Θ表示一个指定模型类别(比如:MF)的参数向量。贝叶斯公式为:
P(Θ|>u)∝p(>u|Θ)p(Θ)
这里,>u是对于user u希望但隐含的偏好结构。所有用户都假设行为间相互独立。我们也假设:对于一个指定用户,每个items (i,j) pair的顺序,与每一个其它pair相互独立。因而,对于所有用户u∈U,以上的特定用户的似然函数p(>u∣Θ)可以首先被重写成:单个密度(densities)和第二个的乘积的组合。
∏u∈Up(>u|Θ)=∏(u,i,j)∈U×I×Ip(i>uj|Θ)δ((u,i,j)∈DS)⋅(1−p(i>uj|Θ))δ((u,j,i)∉DS
其中δ是指示函数:
δ(b):={10if b is true,else
归因于合理的pairwise ordering scheme的总体(totality)和非对称性(antisymmetry),上述公式可以简化为:
∏u∈Up(>u|Θ)=∏(u,i,j)∈DSp(i>uj|Θ)
到目前为止,通常不会保证获得一个个性化的总顺序。为了得到它,必须满足之前提到过的合理性质(totality、antisymmetry、transitivity)。为了这样做,我们定义了一个用户喜欢item i胜过item j的独立概率:
p(i>uj|Θ)=σ(x^uij(Θ))
其中:
σ是logistic sigmoid:σ(x):=11+e−x
x^uij(Θ)是一个特定的关于模型参数向量Θ的real-valued函数,它会捕获user u、item i、item j间的特殊关系。
换句话说,我们的通用框架会将建模在u、i、j间的关系的任务表示到一个底层模型类(比如:MF或adaptive kNN)上,它们负责估计xuij(Θ)。因而,统计方式建模一个个性化总顺序>u变得可行。出于便利,后续章节我们会跳过介绍来自xxij的参数Θ。
至今,我们已经讨论了似然函数。为了补全个性化排序任务的Bayesian建模方法,我们引入了一个通用的先验密度p(Θ),它是一个零均值、协方差矩阵∑Θ的正态分布。
p(Θ)∼N(0,∑Θ)
下面,为了减小未知超参数的数目,我们设置∑Θ=λΘI。现在,我们可以将最大后验估计进行公式化,来生成我们为个性化排序BPR-OPT的通用最优化准则:
BPR−OPT:=ln p(Θ|>u)=ln p(>u|Θ)p(Θ)=ln ∏(u,i,j)∈DSσ(x^uij)p(Θ)=∑(u,i,j)∈DSln σ(x^uij)+ln p(Θ)=∑(u,i,j)∈DSln σ(x^uij)−λΘ∥Θ∥2
其中λΘ是模型特定的正则化参数。
4.1.1 AUC最优化分析
有了Bayesian Personalized Ranking(BPR) scheme的公式,很容易理解BPR和AUC间的分析。每个用户的AUC通常被定义为:
AUC(u):=1|I+u||I∖I+u|∑i∈I+u∑j∈|I∖I+u|σ(x^uij>0)
这里,平均AUC是:
AUC:=1|U|∑u∈UAUC(u)
…(1)
其中, zu是归一化常数:
zu=1|U||I+u||I∖I+u|
在(1)和BPR
这里写自定义目录标题
欢迎使用Markdown编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
新的改变
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
- 全新的界面设计 ,将会带来全新的写作体验;
- 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
- 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
- 全新的 KaTeX数学公式 语法;
- 增加了支持甘特图的mermaid语法1 功能;
- 增加了 多屏幕编辑 Markdown文章功能;
- 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
- 增加了 检查列表 功能。
功能快捷键
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
合理的创建标题,有助于目录的生成
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
如何改变文本的样式
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
插入链接与图片
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
如何插入一段漂亮的代码片
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' | ‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" | “Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash | – is en-dash, — is em-dash |
创建一个自定义列表
-
Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。2
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
注脚的解释 ↩︎