前言
论文名称:Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning
时间:SIGIR2020
【目录】
摘要Abstract
出发点:为了处理用户的动态偏好和优化累计效用,研究人员将强化学习(RL)引入IRS。然而,RL方法有一个共同的样本效率问题,即训练一个有效的推荐策略需要大量的交互数据,这是由于用户响应稀疏和由大量候选项组成的大动作空间造成的。此外,在在线环境中,探索性的策略无法收集大量的数据,这可能会损害用户体验。
本文研究了利用知识图(KG)来处理IRS中RL方法的这些问题的潜力,它为推荐决策提供丰富的边信息。
没有从零开始学习RL策略,而是利用KG学习到的条目相关性的先验知识(i)指导候选条目的选择以获得更好的候选条目检索,(ii)丰富条目和用户状态的表示,(iii)通过KG在相关条目中传播用户偏好,以处理用户反馈的稀缺性。
本文在两个真实世界的数据集上进行了全面的实验,证明了我们的方法的优越性,与先进的技术相比有显著的改进。
1 引言 Introduction
与传统推荐系统[11,19,33]中推荐被视为一步预测任务不同,IRS中的推荐被制定为一个多步决策过程。在每个步骤中,系统向用户发送一个条目,并可能从用户那里得到反馈,然后按照顺序得出下一个推荐决策。推荐和反馈的交互被重复,直到用户的访问会话结束。IRS的目标是探索用户的新兴趣,以及利用习得的偏好,提供准确的预测,从而优化整个推荐序列的结果[42,43]。
重点:提高样本的训练效率。其他外部来源提供了丰富的先验知识,这些知识可能有助于处理上述问题,例如文本评论、视觉图像或项目属性[5]。其中,知识图(KG)是一种著名的结构化知识库,它用具有共同属性的项目和链接项目的属性来表示各种关系,对表示项目[30]之间的相关性有很好的效果。KG提供的项目之间的关联非常适合推荐场景。
在本文中,我们首次尝试在交互式推荐系统中利用KG进行强化学习,试图解决上述现有DRL方法的局限性。一方面,为了缓解数据的稀疏性,通过KG的结构信息对用户的反馈进行建模传播,使得用户的偏好在(KG中的)相关项之间进行传递。这样,一条交互记录可以影响多个连接项,从而提高了样本效率。另一方面,通过聚合KG中item之间的语义关联,可以有效地表示item embedding和用户偏好,从而获得更准确的q值逼近,从而获得更好的推荐性能。
本文贡献如下:
1.提出了一种新颖的端到端深度强化学习的交互推荐框架KGQR来解决稀疏性问题。通过利用KG中的先验知识进行候选选择和从稀疏的用户反馈中学习用户偏好,KGQR可以提高基于rl的IRS模型的样本效率。
2.利用图神经网络,通过考虑KG中物品的语义相关性,可以更精确地表示用户的动态偏好。
3.在两个真实的数据集上进行了大量的实验,表明KGQR能够在用户-物品交互更少的情况下实现比尖端技术更好的性能,这表明了较高的样本效率。
2 相关工作 Related Work
Traditional KG Enhanced Recommendation:这些方法大多是一步预测任务,不能模拟与用户的迭代交互。此外,他们都贪婪地优化用户的即时反馈,而没有考虑用户的长期效用。
Reinforcement Learning in IRS:它无法处理较大的状态和动作空间。现有的基于rl的推荐模型都存在样本效率低的问题,需要对历史中的用户/物品嵌入进行预训练,这意味着它们不能很好地处理冷启动问题的推荐。我们的方法和现有模型之间的一个显著区别是,我们首先提出了一个框架,将KG的语义和结构信息与IRS相结合,以打破这种限制。
3 方法 Methodology
强化学习部分:
在feed流推荐场景中,推荐系统与用户之间的交互本质是一个持续一段时间的多步骤交互过程。在每个时间步t,根据对过去交互的观察,推荐代理将一个商品it∈I交付给用户,并从用户那里接收反馈(如点击、购买或跳过)。这个过程一直持续到用户离开推荐系统。在这种情况下,互动推荐过程可以形成一个马尔可夫决策过程(MDP)。推荐系统的最终目标是学习一个推荐策略π: S→I,使整个交互推荐过程的累计效用最大化为
π
∗
=
arg
max
π
∈
Π
E
[
∑
t
=
0
T
r
(
s
t
,
i
t
)
]
\pi^{*}=\arg \max _{\pi \in \Pi} \mathbb{E}\left[\sum_{t=0}^{T} r\left(s_{t}, i_{t}\right)\right]
π∗=argπ∈ΠmaxE[t=0∑Tr(st,it)]
Q
∗
(
s
t
,
i
t
)
=
E
s
t
+
1
[
r
t
+
γ
max
i
t
+
1
Q
∗
(
s
t
+
1
,
i
t
+
1
)
∣
s
t
,
i
t
]
Q^{*}\left(s_{t}, i_{t}\right)=\mathbb{E}_{s_{t+1}}\left[r_{t}+\gamma \max _{i_{t+1}} Q^{*}\left(s_{t+1}, i_{t+1}\right) \mid s_{t}, i_{t}\right]
Q∗(st,it)=Est+1[rt+γit+1maxQ∗(st+1,it+1)∣st,it]
与基本的RL算法不同,在RS场景中,KG可以通过每个条目在图中的潜在知识级连接为它们提供互补和可区分的信息。因此,有了环境和行为的先验知识,q函数可以更有效地学习,
Q
θ
Q
∗
∗
(
s
t
,
i
t
;
G
)
=
Q
θ
Q
∗
(
s
t
(
G
)
,
i
t
(
G
)
)
.
Q_{\theta_{\mathcal{Q}}^{*}}^{*}\left(s_{t}, i_{t} ; \mathcal{G}\right)=Q_{\theta_{\mathcal{Q}}}^{*}\left(s_{t}(\mathcal{G}), i_{t}(\mathcal{G})\right) .
QθQ∗∗(st,it;G)=QθQ∗(st(G),it(G)).
4 KGQR METHODOLOGY
通常,我们的KGQR模型包含四个主要部分:图卷积模块、状态表示模块、候选选择模块和q学习网络模块。在交互推荐过程中,在每个时间步t, IRS依次向用户推荐item,并根据用户反馈rt相应地更新后续的推荐策略。在某一推荐会话的特定时刻,根据用户的交互历史,结合知识图G,通过图卷积模块和状态表示模块对用户的偏好st进行建模。然后IRS通过Q-network计算候选集中得分最高的条目,并将其推荐给用户。
4.1 KG Enhanced State Representation
4.1.1 Graph convolutional embedding layer
节点h的相邻结点的表示:
e
N
(
h
)
k
−
1
=
1
∣
N
(
h
)
∣
∑
t
∈
N
(
h
)
e
t
k
−
1
\mathbf{e}_{N(h)}^{k-1}=\frac{1}{|N(h)|} \sum_{t \in N(h)} \mathbf{e}_{t}^{k-1}
eN(h)k−1=∣N(h)∣1t∈N(h)∑etk−1
聚合h与相邻结点:
e
h
k
=
σ
(
W
k
e
N
(
h
)
k
−
1
+
B
k
e
h
k
−
1
)
\mathbf{e}_{h}^{k}=\sigma\left(\mathbf{W}_{k} \mathbf{e}_{N(h)}^{k-1}+\mathbf{B}_{k} \mathbf{e}_{h}^{k-1}\right)
ehk=σ(WkeN(h)k−1+Bkehk−1)
经过k-hop图卷积embedding层后,每个被点击的item可转换为:
i
t
(
G
)
=
e
i
t
k
\mathbf{i}_{t}(\mathcal{G})=\mathbf{e}_{i_{t}}^{k}
it(G)=eitk
4.1.2 Behavior aggregation layer
本文使用一个带有门控循环单元(GRU)的RNN作为网络单元[6]来聚合用户的历史行为,提取用户的状态st (G),定义GRU单元的更新函数为
z t = σ g ( W z i t + U z h t − 1 + b z ) , r t = σ g ( W r i t + U r h t − 1 + b r ) , h ^ t = σ h ( W h i t + U h ( r t ∘ h t − 1 ) + b h ) , h t = ( 1 − z t ) ∘ h t − 1 + z t ∘ h ^ t , \begin{aligned} &\mathbf{z}_{t}=\sigma_{g}\left(\mathbf{W}_{z} \mathbf{i}_{t}+\mathbf{U}_{z} \mathbf{h}_{t-1}+\mathbf{b}_{z}\right), \\ &\mathbf{r}_{t}=\sigma_{g}\left(\mathbf{W}_{r} \mathbf{i}_{t}+\mathbf{U}_{r} \mathbf{h}_{t-1}+\mathbf{b}_{r}\right), \\ &\hat{\mathbf{h}}_{t}=\sigma_{h}\left(\mathbf{W}_{h} \mathbf{i}_{t}+\mathbf{U}_{h}\left(\mathbf{r}_{t} \circ \mathbf{h}_{t-1}\right)+\mathbf{b}_{h}\right), \\ &\mathbf{h}_{t}=\left(1-\mathbf{z}_{t}\right) \circ \mathbf{h}_{t-1}+\mathbf{z}_{t} \circ \hat{\mathbf{h}}_{t}, \end{aligned} zt=σg(Wzit+Uzht−1+bz),rt=σg(Writ+Urht−1+br),h^t=σh(Whit+Uh(rt∘ht−1)+bh),ht=(1−zt)∘ht−1+zt∘h^t,
ht是用户当前状态的表示,然后将其送入q网络,即st (G) = ht
4.2 Neighbor-based Candidate Selection
具体来说,本文利用KG过滤一些不相关的项(即动作),动态地获得潜在的候选项。限制性检索将数据样本集中在更有用的区域,如item相关性结构所建议的那样。因此,这些潜在的候选者不仅可以减少大的搜索空间,而且可以提高政策学习的样本效率。
我们基于KG中的k-hop邻域执行采样策略。在每个时间步长t中,用户的历史交互项目充当种子集:
E
t
k
=
{
tail
∣
(
head, relation, tail
)
∈
G
and head
∈
E
t
l
−
1
}
l
=
1
,
2
,
…
,
k
\begin{array}{r} \mathcal{E}_{t}^{k}=\left\{\text { tail } \mid(\text { head, relation, tail }) \in \mathcal{G} \text { and head } \in \mathcal{E}_{t}^{l-1}\right\} \\ l=1,2, \ldots, k \end{array}
Etk={ tail ∣( head, relation, tail )∈G and head ∈Etl−1}l=1,2,…,k
然后,将当前用户状态的候选操作集定义为
I
t
(
G
)
=
{
item
∣
iter
∈
⋃
l
=
1
k
E
t
l
and item
∈
I
}
I_{t}(\mathcal{G})=\left\{\text { item } \mid \text { iter } \in \bigcup_{l=1}^{k} \mathcal{E}_{t}^{l} \text { and item } \in I\right\}
It(G)={ item ∣ iter ∈l=1⋃kEtl and item ∈I}
4.3 Learning Deep Q-Network
在对用户的状态st (G)进行建模并获得候选集It (G)后,需要设计Q-network来结合这些信息,改进交互推荐过程中的推荐策略。在这里,我们实现了一个深度q网络(DQN),使用dueling-q[35]和double-q[27]技术,从当前用户状态建模预期的长期用户满意度,并学习最优策略。
4.3.1 Deep Q-network
使用dueling q-network:计算Value function
V
(
i
t
(
G
)
)
V\left(i_{t}(\mathcal{G})\right)
V(it(G)) 和advantage function A(st(G),it(G)),Q值可计算为:
Q(st (G), it (G); θV , θA) = V (it (G); θV ) + A(st (G), it (G); θA). (11)
LOSS函数为
L
(
θ
Q
)
=
E
(
o
t
,
i
t
,
r
t
,
o
t
+
1
)
∼
D
[
(
y
t
−
Q
(
s
t
,
i
t
;
θ
Q
)
)
2
]
L\left(\theta_{Q}\right)=\mathbb{E}_{\left(o_{t}, i_{t}, r_{t}, o_{t+1}\right) \sim \mathcal{D}}\left[\left(y_{t}-Q\left(\mathbf{s}_{t}, \mathbf{i}_{t} ; \theta_{Q}\right)\right)^{2}\right]
L(θQ)=E(ot,it,rt,ot+1)∼D[(yt−Q(st,it;θQ))2]
本文还利用Double-Q来缓解估值过高的问题,以及使用软更新。
5 实验EXPERIMENT
数据集:1.Book-Crossing;2.Movielens-20M。
评价指标:1.Average Reward.; 2.Average Cumulative Precision@T ; 3.Average Cumulative Recall@T
6 总结CONCLUSION
本研究提出了一个知识图增强的Q-learning框架(KGQR)用于交互式推荐。这是第一个在基于rl的交互式推荐系统中利用KG的工作,它在很大程度上解决了样本复杂性问题,并显著提高了性能。此外,利用知识图的结构信息直接缩小动作空间,从而有效地解决动作空间过大的问题。该模型在图中相关项之间传播用户偏好,以解决IRS中用户反馈极其稀疏的问题。这些设计都提高了样品的效率,这是以往工作中普遍存在的问题。基于两个真实数据集精心设计的模拟环境的全面实验表明,与先进技术相比,本文的模型可以在更高的样本效率下获得显著更好的性能。
在未来的工作中,作者计划与其他DRL框架如PG和DDPG一起研究KGQR在新闻和图像推荐任务中的作用。也正在计划将KGQR部署到一个在线商业推荐系统中。此外,还将引入一个更复杂的顺序模型来表示用户偏好的动态变化,例如,考虑用户对点击历史显示的不同关系的倾向。