新闻推荐系统：深度知识感知网络DKN

最新推荐文章于 2024-10-11 06:15:46 发布

明远AI

最新推荐文章于 2024-10-11 06:15:46 发布

阅读量5.4k

点赞数 7

分类专栏：推荐系统文章标签：推荐系统深度学习

推荐系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

DKN: Deep Knowledge-Aware Network for News Recommendation

DKN: Deep Knowledge-Aware Network for News Recommendation[1]

这里写图片描述

ABSTRACT

在线新闻推荐系统致力于在庞大的新闻数据中为用户提供个性化的新闻推荐。一般情况下，新闻语言高度浓缩并且主要由知识实体构成。已有的推荐方法没有进行外部知识的抽象与学习，不能够充分的发掘新闻在知识层面的联系。本文结合知识图谱提出了基于深度知识感知网络(DKN)的新闻推荐系统。DKN在基于内容的深度推荐框架下进行点击率预测。该网络的核心是一种多通道、词-实体校准(word-entity-aligned)的知识感知卷积神经网络(KCNN)，融合了新闻的语义层和知识层表示。同时引入attention机制处理用户兴趣的多样性，动态的根据当前候选新闻整合用户历史新闻记录。
KEYWORDS：News recommendation; knowledge graph representation; deep neural networks; attention model

1. INTRODUCTION

新闻推荐系统很难拥有显著的效果，主要受到三个方面的问题限制。

新闻有很强的时效性并且新闻间的相关性在很短时间内失效。
用户对话题比较敏感，同时有特定的几个种类。根据多元化阅读历史动态的衡量用户的兴趣是新闻推荐系统的关键
新闻语言高度浓缩并且主要由知识实体构成。如图1，通过知识实体可以将两条新闻进行连接，反映出新闻在知识层面的关联性。

这里写图片描述

为了解决上述问题，在知识图谱方法的启发下，提出了DKN。
DKN在基于内容的深度推荐框架下进行点击率预测，每次将一条候选新闻和一个用户的点击历史作为输入，输出该用户点击此新闻的概率。对于一条输入的新闻，首先将文本中每个单词与知识图谱中的实体建立一一对应，并搜索相邻接的实体进而对新闻包含的信息进行了扩充。然后通过KCNN融合新闻的语义层和知识层的表示。同时引入attention机制处理用户兴趣的多样性，动态的根据当前候选新闻整合用户历史新闻记录，学习得到用户不同时期点击的权重。最后通过用户和候选新闻的embedding，采用深度神经网络进行点击率预测。

2. PRELIMINARIES

知识图谱embedding，基于卷积神经网络的句子重表示学习。

2.1 Knowledge Graph Embedding

典型的知识图谱包含数以百万计的实体-关系-实体三元组 $(h,r,t)$ 。给定知识图谱中所有的三元组，知识图谱embedding的目标是学习每一个实体和关系的低维重表示向量，该表示需要保留原有知识图谱的结构信息。Translation-based知识图谱embedding方法主要有以下四种：

TransE 引入超平面 $w_r$ ，目标函数：

$f r (h, t) = ∥ h + r - t ∥ 22$ $f_r(h,t)=\|h+r-t\|^2_2$
TransH 目标函数：

f r (h, t) = ∥ h ⊥ + r - t ⊥ ∥ 22

$f_r(h,t)=\|h_{\bot}+r-t_{\bot}\|^2_2$

其中 $h_{\bot} = h -\omega^{ \top}_r h w_r,t_{\bot} = t -\omega^{ \top}_r t w_r$ ，且 $\|w_r\|_2=1$

TransR 引入投影矩阵 $M_r$ 目标函数：

f r (h, t) = ∥ h r + r - t r ∥ 22

$f_r(h,t)=\|h_r+r-t_r\|^2_2$
其中

hr=hMr,tr=tMr h r = h M r , t r = t M r $h_r = h M_r,t_r=t M_r$

TransD 引入投影向量 $r_p,h_p,t_p$ 代替投影矩阵 $M_r$ ，目标函数：

f r (h, t) = ∥ h + r - t ∥ 22

$f_r(h,t)=\|h+r-t\|^2_2$
其中

h⊥=（rph⊤p+I)h,t⊥=（rpt⊤p+I)t h ⊥ = （ r p h p ⊤ + I ) h , t ⊥ = （ r p t p ⊤ + I ) t $h_{\bot} = （r_p h_p^{ \top}+I)h, t_{\bot} = （r_p t_p^{ \top}+I)t$

训练损失函数：

L = \sum (h, r, t) \in Δ \sum (h', r, t') \in Δ' max (0, f r (h, t) + γ - f r (h', t'))

$\mathcal{L}=\sum_{(h,r,t)\in\Delta} \sum_{(h',r,t') \in \Delta'}\max(0,f_r(h,t)+\gamma-f_r(h',t'))$

其中 $\Delta,\Delta'$ 表示正负实例， $\gamma$ 表示两种实例的阈值

2.2 CNN for Sentence Representation Learning

Kim CNN架构如图2： $\omega_{1:n}$ 表示长度为n的句子。 $w_{1:n}=[w_1 w_2\cdots w_n]\in \mathbb{R}^{d \times n}$ 表示句子的词嵌入矩阵。 $w_i\in \mathbb{R}^{d\times 1}$ 是第 $i$ 个单词的嵌入。 $h\in \mathbb{R}^{d\times l}$ 是filter， $l$ 是窗口大小。

c_{i} = f (h * w_{i : i + l - 1} + b)

$c_i=f(h*w_{i:i+l-1}+b)$

c = [c 1, c 2, \dots, c n - l + 1]

$c=[c_1,c_2,\cdots,c_{n-l+1}]$
池化：

c ~ = max {c} = max {c 1, c 2, \dots, c n - l + 1}

$\tilde{c}=\max{\{c\}}=\max\{c_1,c_2,\cdots,c_{n-l+1}\}$

这里写图片描述

3. PROBLEM FORMULATION

新闻推荐系统的公式化表述。用户 $i$ ,点击历史记录 ${t^i_1,t^i_2,\cdots,t^i_{N_i}}$ ， $t_j^i$ 表示被用户 $i$ 点击的第 $j$ 条新闻的标题。
每个标题 $t$ 转化为一个单词序列，即 $t=[\omega_1,\omega_2,\cdots]$ 。每个单词 $\omega$ 在知识图谱中可能会有一个实体 $e$ 与之对应。
给定用户历史点击，将新闻标题中的单词和知识图谱中的实体进行对应，进一步预测用户 $i$ 点击一个候选新闻 $t_j$ 的概率。

4. DEEP KNOWLEDGE-AWARE NETWORK

DKN详细介绍：整体框架，知识提取，KCNN设计，attention机制。

4.1 DKN Framework

整体框架如图3示。候选新闻和用户点击的新闻作为输入。每条新闻都通过一个KCNN对其标题进行处理，产生相应的嵌入向量。引入attention机制获得最终的用户embedding。最后采用深度神经网络得到点击概率预测。

这里写图片描述

4.2 Knowledge Distillation

1、从新闻内容中通过预先定义的知识图谱提取知识实体；
2、根据提取的知识实体构建知识图谱子图，包含新闻中提取的实体和相邻的实体。
3、根据提取的知识图谱子图，通过成熟的embedding方法进行实体重表示学习。

知识萃取过程如图4示：

这里写图片描述

通过embedding方法得到的单点表示在实现中限制了推荐能力。这里拓展原有的方法添加实体的上下文关系进行embedding处理。实体 $e$ 的上下文语境定义为它在知识图谱中相邻节点构成的集合：

c o n t e x t (e) = {e_{i} | (e, r, e_{i}) \in G o r (e_{i}, r, e) \in G}

$context(e)=\{ e_i| (e,r,e_i) \in \mathcal{G} ~~or~~(e_i,r,e)\in \mathcal{G} \}$

由于上下文语境实体和当前实体在语义和逻辑上有着紧密的联系，所以上下文语境的使用能够提高实体的可分辨能力。图5阐明了使用实例。通过计算上下文语境实体的平均得到上下文语境embedding：

e ¯ = 1 | c o n t e x t ( e ) | \sum e i \in c o n t e x t (e) e i

$\bar{e}=\frac{1}{|context(e)|} \sum_{e_i\in context(e)} e_i$

这里写图片描述

4.3 Knowledge-aware CNN

$t=w_{1:n}=[w_1,w_2,\cdots,w_n]$ 表示长度为n的新闻标题t的行输入序列， $w_{1:n}$ 表示标题的词嵌入矩阵，既可以是通过大规模语料库预先学习得到也可以随机初始化。为了将前面从知识图谱中学到的实体的embedding引入到网络中去，需要对实体嵌入进行转化映射到词向量空间中去。

g (e 1 : n) = [g (e 1) g (e 2) \dots g (e n)]

$g(e_{1:n})=[g(e_1)g(e_2)\cdots g(e_n)]$

g (e ¯ 1 : n) = [g (e ¯ 1) g (e ¯ 2) \dots g (e ¯ n)]

$g(\bar{e}_{1:n})=[g(\bar{e}_1)g(\bar{e}_2)\cdots g(\bar{e}_n)]$
线性转换映射：

g (e) = M e

$g(e)=Me$
非线性转换映射：

g (e) = tanh (M e + b)

$g(e)=\tanh{(Me+b)}$
最终得到多通道输入矩阵：

W = [[w 1 g (e 1) g (e ¯ 1)] [w 2 g (e 2) g (e ¯ 2)] \dots [e n g (e n) g (e ¯ n)]] \in R d \times n \times 3

$\textbf{W}=[[w_1g(e_1)g(\bar{e}_1)][w_2g(e_2)g(\bar{e}_2)]\cdots [e_ng(e_n)g(\bar{e}_n)]]\in \mathbb{R}^{d\times n\times 3}$
通过卷积神经网络，经过卷积层和池化层进行学习，最终得到输入新闻标题

t t $t$ 的重表示