推荐系统论文

推荐系统:BPR论文阅读*

1. 介绍

《BPR: Bayesian Personalized Ranking from Implicit Feedback》讨论了个性化排序学习模型的一个通用方法:Bayesian Personalized Ranking。主要贡献有:
1.描述了通用的优化方法:BPR-OPT,它来自于对最优个性化排序的最大后验估计。展示了BPR-OPT在AUC上的分析。
2.对于最大化BPR-OPT,提出了通用学习算法LearnBPR,它基于SGD(随机梯度下降),在训练过程使用有放回抽样。展示了该算法会优于最优化BPR-OPT时的SGD。
3.我们展示了如何应用learnBPR到两个state-of-art推荐模型中
4.我们的实验经验上展示了个性化排序任务,使用BPR的模型效果要好于其它学习算法

3.个性化排序

个性化排序的任务,会为一个用户提供一个项目排序列表。这也被称为项目推荐。一个示例是,在线电商希望推荐一个个性化的项目排序列表,用户会从中购买。在本文中,我们会研究以下情形:排序必须从用户的隐式行为(例如:过去的购买)进行推断得到。隐式反馈系统只提供正例数据(正样本)。未被观察到(non-observed)的用户-项目对(例如:一个用户没有购买一个项目)会是一个真实负反馈(用户对购买该项目不敢兴趣)以及缺失值(用户可能会在将来购买该项目)的混合。

3.1 公式化

在这里插入图片描述图1: 在左侧,为已观察到的数据S。直接从S中学习是不可行的,因为只有正反馈被观察到。通常负例数据通过使用0值填充矩阵来生成

假设U是所有users的集合,I是所有items的集合。在我们的场景下,隐式反馈S⊆U×I(见图1左侧)。类似这种反馈方式有:电商中的购买行为,视频观看 或者 网页上的点击。推荐系统的任务是提供给用户一个个性化总排序(personlaized total ranking): >u⊂I2,其中>u必须满足一个总顺序属性:
请添加图片描述
totallity: 总体性。是I中所有数据
antisymmetry: 反对称性,正样本对角线为负
transitivity: 传递性
出于便利,我们也定义了:
请添加图片描述

3.2 问题分析

前面提到,在隐式反馈系统中只有正例(positive classes)被观察到。剩余数据其实是实际负例(negative)与缺失值(missing value)的一个混合。对于应付缺失值问题,最常见的方法是:忽略所有缺失值。通常典型的机器学习模型不能学习任何东西,因为他们两者间不能进行区分这两者(负例和缺失值)。

对于item推荐,常用的方法是,对一个item预测一个个性化分x^ui,它可以影响用户对该item的偏好。接着,该items会根据该分值进行排序。对于item推荐的机器学习方法,通常会从S中创建训练数据:给定:

正例:(u,i)∈S pairs
负例:所有在(U×I)∖S中的其它组合
如图1所示。接着,模型会拟合该数据。这意味着模型的最优化是为在S中的元素预测value是1, 其余为0。该方法的问题是,在模型中将来进行排序的所有元素(U×I∖S)在训练期间都会作为负反馈被表示给机器学习算法。这意味着:如果一个模型具有足够表现力(它可以精准拟合训练数据),它根本不能进行排序,因为它的预测值基本为全0(很稀疏,大部分为0, 全预测对)。为什么这样的机器学习方法可以预测排名?唯一原因是,有策略阻止过拟合,比如:正则化。

我们使用一种不同的方法:通过使用item pairs作为训练数据,然后为正确(correctly)的项目排名进行最优化(而非对单个items进行打分),因为这比使用负例来替代缺失值要更好。从S中,我们可以尝试为每个user parts(>u)进行重构。如果一个item i被user u观看过,(例如:(u,i)∈S)——那么,我们假设该user喜欢该item要胜过其它未观察到的items。请添加图片描述
图2: 在左侧,已观察到的数据S。我们的方法会在一个items pair间创建特定用户的pairwise偏好i>uj。在右侧,加号(+)表示一个用户偏爱item i胜过item j;减号(-)表示他偏爱j胜过i。

例如,在图2中,user u1已经观看过item i2,但没看过item i1,因此我们假设,该用户喜欢i2要胜过i1:i2>ui1。对于被一个用户同时观看过的两个items,我们不能推断更偏好哪个。对于用户未观看过的两个items来说(比如:对于user u1, item i1和i4),相类似,也不能推断哪个更好。为了将这种现象公式化,我们创建训练数据 DS:U×I×I:

DS:={(u,i,j)|i∈I+u∧j∈I∖I+u}
(u,i,j)∈DS的语义是,user u被假设成:喜欢i,胜过j。由于>u是非对称的,负例会被隐式对待。

我们的方法有两个优点:

1.我们的训练数据同时包含了正负例pairs以及缺失值。介于两个未观察到的项目间的缺失值是将来必须排序的项目对。这意味着,从对的角度看,训练数据DS和测试数据是不相交的。
2.为排序的实际目标函数创建训练数据,例如:观察到>u的子集DS被用成训练数据。

4.BPR

在这部分,我们为解决个性化排序任务生成了一种通用方法。对于个性化排序,它包含了通用优化准则:BPR-OPT,它源自对该问题的Bayesian分析,会使用似然函数来为p(i>uj∣Θ)以及模型参数p(Θ)的先验概率。我们展示了排序统计AUC的分析。对于遵循BPR-OPT的学习模型,我们提出了算法learnBPR。最后,我们会展示BPR-OPT和LearnBPR是如何应用到两个state-of-art的推荐算法(MF和adaptive kNN)上。比起常用的训练方法,使用BPR来优化这些模型可以生成更好的rankings。

4.1 BPR优化原则

为所有items i∈I寻找正确的个性化排序的Bayesian公式,是为了最大化以下后验概率,其中Θ表示一个指定模型类别(比如:MF)的参数向量。贝叶斯公式为:

                  P(Θ|>u)∝p(>u|Θ)p(Θ)

这里,>u是对于user u希望但隐含的偏好结构。所有用户都假设行为间相互独立。我们也假设:对于一个指定用户,每个items (i,j) pair的顺序,与每一个其它pair相互独立。因而,对于所有用户u∈U,以上的特定用户的似然函数p(>u∣Θ)可以首先被重写成:单个密度(densities)和第二个的乘积的组合。

∏u∈Up(>u|Θ)=∏(u,i,j)∈U×I×Ip(i>uj|Θ)δ((u,i,j)∈DS)⋅(1−p(i>uj|Θ))δ((u,j,i)∉DS
其中δ是指示函数:

δ(b):={10if b is true,else
归因于合理的pairwise ordering scheme的总体(totality)和非对称性(antisymmetry),上述公式可以简化为:

∏u∈Up(>u|Θ)=∏(u,i,j)∈DSp(i>uj|Θ)
到目前为止,通常不会保证获得一个个性化的总顺序。为了得到它,必须满足之前提到过的合理性质(totality、antisymmetry、transitivity)。为了这样做,我们定义了一个用户喜欢item i胜过item j的独立概率:

p(i>uj|Θ)=σ(x^uij(Θ))
其中:

σ是logistic sigmoid:σ(x):=11+e−x
x^uij(Θ)是一个特定的关于模型参数向量Θ的real-valued函数,它会捕获user u、item i、item j间的特殊关系。
换句话说,我们的通用框架会将建模在u、i、j间的关系的任务表示到一个底层模型类(比如:MF或adaptive kNN)上,它们负责估计xuij(Θ)。因而,统计方式建模一个个性化总顺序>u变得可行。出于便利,后续章节我们会跳过介绍来自xxij的参数Θ。

至今,我们已经讨论了似然函数。为了补全个性化排序任务的Bayesian建模方法,我们引入了一个通用的先验密度p(Θ),它是一个零均值、协方差矩阵∑Θ的正态分布。

p(Θ)∼N(0,∑Θ)
下面,为了减小未知超参数的数目,我们设置∑Θ=λΘI。现在,我们可以将最大后验估计进行公式化,来生成我们为个性化排序BPR-OPT的通用最优化准则:

BPR−OPT:=ln p(Θ|>u)=ln p(>u|Θ)p(Θ)=ln ∏(u,i,j)∈DSσ(x^uij)p(Θ)=∑(u,i,j)∈DSln σ(x^uij)+ln p(Θ)=∑(u,i,j)∈DSln σ(x^uij)−λΘ∥Θ∥2
其中λΘ是模型特定的正则化参数。

4.1.1 AUC最优化分析
有了Bayesian Personalized Ranking(BPR) scheme的公式,很容易理解BPR和AUC间的分析。每个用户的AUC通常被定义为:

AUC(u):=1|I+u||I∖I+u|∑i∈I+u∑j∈|I∖I+u|σ(x^uij>0)
这里,平均AUC是:

AUC:=1|U|∑u∈UAUC(u)
…(1)

其中, zu是归一化常数:

zu=1|U||I+u||I∖I+u|
在(1)和BPR

欢迎使用Markdown编辑器

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.3.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值