【论文阅读】《基于知识图谱的推荐系统综述》
一、论文基本信息
二、推荐系统信息
(一)推荐系统背景
- 推荐系统说明
给定用户集合 U, 物品集合 V , 并用 Ri,j 表示用户 Ui 对 Vj 的喜好程度, R ∈ R|U|×|V |.
例如在电影推荐网站 MovieLens 中, Ri,j 就可以是用户 i 对电影 j 的打分. 随后我们定义一个效用函数 f : U × V → R, 则推荐系统所研究的问题是给定任意一个用户 Ui, 希望找到其喜好程度最大的物品 Vk,
- 推荐系统核心:个性化推荐算法
- 推荐算法分类:
1.基于内容的推荐算法
2.基于协同过滤的推荐算法
3.混合推荐算法 - 存在问题说明:
基于协同过滤的推荐算法,通过利用用户历史的行为偏好数据构建模型,不需要对物品尽心复杂的特征提取与建模,通常是有效且普遍适用的,但依然存在这一些问题。
1.用户和物品之间的行为关系数据的稀疏问题;
2.新用户或者新物品需要推荐时存在的冷启动问题; - 解决策略:
研究者尝试将协同过滤推荐算法和其他辅助信息相结合(用户和物品的属性特征、用户的社交网络信息等)结合,试图解决以上问题,提升推荐效果
(二)推荐算法分类
【基于内容的推荐算法】
-
基本假设:用户可能会喜欢与他曾经喜欢过的物品相似的物品
-
流程:
1.通过建模计算用户曾经有过的显式反馈(打分、点赞等)和隐式反馈(搜索、点击、购买等)的物品集合与所有物品的相似度;
2.按照相似度的大小排序到推荐的列表;
3.考虑时间因素、地点因素和推荐场景因素等来优化推荐的结果; -
特点
1.基于内容的推荐算法可以解决新物品冷启动的问题,不受R的稀疏性所影响;
2.推荐结果具有不错的可解释性;
3.基于内容的推荐算法需要复杂的特征工程构造物品属性的特征,其模型的特性将严重影响推荐结果;
4.推荐结果缺乏多样性,推荐结果会与用户曾有过显式反馈和隐式反馈的物品高度相似;
5.新用户没有历史行为,缺少“曾经喜欢的物品”,具有冷启动问题;
【基于协同过滤的推荐算法】
-
分类:
1.基于用户的协同过滤
2.基于物品的协同过滤
3.基于模型的协同过滤 -
基本假设:
1.基于用户的协同过滤:用户可能喜欢与他相似用户喜欢的物品
2.基于物品的协同过滤:相似的物品可能被相同的用户喜欢
3.基于模型的协同过滤:用于解决上述两种方法面临的数据稀疏、难以再大数据量级上返回即时结果的问题 -
流程
1.基于用户的协同过滤
通过用户历史反馈记录计算用户间的相似度,利用其相似的用户对物品的反馈,来预测对应用户的反馈情况,并进行推荐;
2.基于物品的协同过滤
通过使用物品历史被反馈的数据来判断物品之间的相似度,利用相似的物品XXXX,来预测用户XX的物品集合,并进行推荐;
3.基于模型的协同过滤
通过历史数据利用机器学习方法训练得到一个预训练模型f,从而可以实时预测任意用户对某一物品的喜好;
- 特点
1.基于用户的协同过滤:
避开了对物品自身属性的特征挖掘
但在用户数量变化很大的情况下,算法效率较低
存在新用户的冷启动问题
2.基于物品额协同过滤:
计算简单,物品反馈结果变化比用户要低很多
与基于用户的协同过滤算法相比,可以通过离线计算,定时更新来完成
但无法再不离线更新物品相似性时推荐新的物品给用户
3.基于模型的协同过滤:
XXXXXX略XXXXXXX
【混合推荐算法】
-
基本假设
将多种推荐技术混合,从而互相弥补缺点 -
混合方法
1.加权融合、切换、混合
2.不同数据源的特征组合
3.复杂的多模型级联
4.特征递增
5.元层次混合 -
常见的混合推荐系统
将协同过滤推荐方法与其他推荐方法结合,从而解决冷启动和稀疏性等问题 -
特点
可以针对特定的推荐场景定制化建模,从而合理有效地利用额外的数据信息 -
举例
例如, Konstas 等 [31] 利用音乐网站 Last.FM 6)特有的用户之间的社交网络信息构建了一个有效的混合推荐系统. Wang 等 [2] 通过引入知识图谱的知识信息, 学习新闻内容之中的潜在知识关联, 从而构建了一个在新闻推荐场景下的高效混合推荐系统
三、知识图谱信息
(一)知识图谱背景
知识图谱作为辅助信息,可以在混合的个性化推荐中扮演重要的角色
-
知识图谱本身包含的信息:
1.知识图谱是一种有向信息网络异构网络,包含节点:实体,有向边:关系;
2.知识图谱的结构可以存储物品的大量背景信息和物品之间的关系;
3.知识图谱可以用于扩展用户和商品之间存在的隐藏的关联关系,从而补充用户和物品交互数据,提升推荐效果
4.学界构建的一系列知识图谱:DBpedia KG1)、AceKG2)、Microsoft Satori、百度知识图谱和 OwnThink KG5)等. -
知识图谱的本质
1.知识图谱的本质是一个存储知识实体与实体之间关系的结构化网络
2.知识图谱可以帮助形式化描述、理解现实世界的事物及其相互关系 -
知识图谱的应用场景
1.推荐系统
2.智能问答
3.文本分析
(二)知识图谱的形式
-
知识图谱的形式:通常以三元组的形式存储实体及其关系,形式化表示为为 G = (E, R, S);
1.实体集合:为R
2.关系集合:为S
3.每个三元组Si都由一个头实体、关系和尾实体构成 -
知识图谱可以表示的内容
1.实体间的关系
2.实体的属性
(三)知识图谱的内容会频繁地动态更改 -> 动态知识图谱
四、推荐系统和知识图谱的联结
由推荐系统和知识图谱本身的特性可以发现,基于知识图谱的个性化推荐可以较好地弥补传统推荐方法存在的不足,有效利用用户属性、用户间关系等辅助信息,实现对推荐算法的补充
(一)将知识图谱应用在推荐系统中
- 知识图谱应用到推荐系统的动机
1.现有推荐系统技术存在的问题:
(1)物品的交互数据稀疏问题
(2)物品的冷启动问题
2.知识图谱中蕴含着大量实体以及实体之间关系的信息
(1)实体和实体间的关系可以作为有效的辅助信息丰富用户和物品的描述
(2)XXXX可以提升推荐算法的准确程度
(3)XXXX可以有效解决数据稀疏问题和冷启动问题
[图片举例]
- 知识图谱可以和原用户-物品的交互数据构成一个异质信息网络图,利用挖掘图上用户到物品之间不同的路径,提升推荐效果;
- 以下列基于知识图谱的异构信息网络图为例:
- (用户 A, 喜欢,《成事在人》)∧(《成事在人》, 主演是, 摩根 · 弗里曼)∧(摩根 · 弗里曼, 主演,《肖申克的救赎》)⇒(用户 A, 喜欢,《肖申克的救赎》)
- (用户 A, 喜欢,《成事在人》)∧(《成事在人》, 导演是, 克林特 · 伊斯特伍德)∧(克林特 · 伊斯特伍
德, 主演,《逃出亚卡拉》)∧(《逃出亚卡拉》, 被翻拍,《肖申克的救赎》)⇒(用户 A, 喜欢,《肖申克的救赎》) - (用户 A, 喜欢,《成事在人》)∧(《成事在人》, 导演是, 克林特 · 伊斯特伍德)∧(克林特 · 伊斯特伍
德, 主演,《逃出亚卡拉》)∧(《逃出亚卡拉》, 被喜欢, 用户 B)∧(用户 B, 喜欢,《肖申克的救赎》)⇒(用 户 A, 喜欢,《肖申克的救赎》)
- 对以上例子构建的异构信息网络图进行分析,发现该网络图可以帮助我们挖掘大量源数据集中未出现的用户-物品交互的关系,从而解决数据稀疏与冷启动的问题
- 构建可解释性推荐系统成为趋势
1.可解释性推荐算法的目的:给用户合适地推荐物品地同时,解释推荐的理由和为什么作出推荐
2.可解释性推荐算法:使得用户的信任度和满意度提升,更易于使用户选择被推荐的物品
(二)理解
- 知识图谱可以作为非常容易理解的外部知识库可以帮助将用户、物品之间构建合理的关联、从而帮助我们构建可解释的推荐系统
五、基于知识图谱的推荐系统
- 知识图谱+推荐系统
- 将知识图谱和推荐系统结合起来
(一)基于知识图谱的算法
- 基于知识图谱的推荐算法分类
1.基于嵌入的方法
2.基于路径的方法
【基于嵌入的方法】
-
基于嵌入的应用知识图谱再推荐系统的方法主要是:
1.通过图嵌入的方法对实体和关系进行表征
2.扩充原有物品和用户表征的语义信息
3.具体包括基于Trans系列的图谱嵌入方法和基于异质信息网络的图嵌入方法 -
基于Trans系列的图谱嵌入方法:包括TransE、TransH、TransR、TransD
1.TransE:详细介绍
2.TransH:详细介绍
3.TransR:详细介绍
4.TransD:详细介绍 -
基于异质信息网络的图嵌入方法
【基于路径的方法】
- 基于路径的应用知识图谱在推荐系统的方法主要是:
1.挖掘基于图谱用户、物品之间多种连接关系
2.找到多条用户A到物品n的路径
3.进而基于挖掘路径的信息构造推荐算法
4.总结:再推荐系统中引入传统的对异质信息网络进行挖掘的元路径(Meta-path)的方法
【异质信息网络】
-
定义1
-
定义2
-
传统的基于元路径的方法特点
1.可以由很好的推荐效果以及可解释性
2.但需要构建推荐算法前需要先从数据中抽取、构造大量的Meta-path或Meta-Graph,因此并不是一个端到端的方式
3.且当推荐场景或图谱发生改变时,需要重新构造;
4.针对一些特定的推荐场景(新闻推荐问题),每条新闻与图谱中多个实体关联,很难直接用于源路径相关的方法; -
针对以上问题,一些方法不采用构造元路径的方式,而是直接对异质信息网络中的用户与物品之间存在的语义路径进行挖掘
详见论文
(二)基于知识图谱的应用
包括传统推荐系统、序列化推荐系统、可解释推荐系统
【传统推荐系统】
- 传统推荐系统是指在给定用户—物品的交互数据以及可能包含用户、物品的属性数据下,对用户推荐其可能感兴趣的商品
- 在应用知识图谱的时候,可以将物品或物品的相关属性直接映射到知识图谱上
- 举例说明
1.电影
2.图书
3.新闻
4.电商商品
5.POI
6.音乐
7.药物
【序列化推荐系统】
目的在于捕捉用户兴趣的变化模式,从而基于用户历史的交互信息预测当前的兴趣点
- 马尔可夫模型
- 循环神经网络模型(RNN)
【可解释推荐系统】
目的在于推荐物品给用户的同时给出推荐的原因,从而提升系统的可靠性
- 目前设计的知识图谱下的可解释推荐系统主要是基于路径的推荐的方法
图