1.数据集的组成
此数据集是将一些其他的数据集联系起来之后得到的一个数据集。
其他的数据集分为两类,分别是推荐系统的数据集和知识库。推荐系统的数据集(RS data sets),包括MovieLens, LFM-1b和Amazon book三种;知识库的数据集( KB data sets),包括Freebase和YAGO。
将来自推荐系统的三个数据集分别与来自知识库的两个数据集相联系,形成六个联系结果。
将以上数据集联系起来的主要思想是:根据RS data sets的项目标题与KB data sets相连接。(类似于数据库中的自然连接)
但最终在KB4Rec v1.0数据集中只提供了由推荐系统的数据集连接到Freebase的三个数据文件:ml2fb.txt、lfb2fb.txt、ab2fb.txt。
2.数据集的作用
由于推荐系统的三个数据集MovieLens, LFM-1b和Amazon book分别包含了电影、音乐、图书三大类,以及知识库的两个数据集Freebase和YAGO中包含大量的项目信息,所以KB4Rec包含丰富的知识库(KB)信息,可以为推荐系统提供丰富和结构化的知识库(KB)信息,使训练出的推荐模型具有更好的推荐效果。
在原论文(原论文地址)中,数据集的创建者对数据集KB4Rec进行了一系列的实验验证,如在KB4Rec的基础上比较不同的推荐算法,结果表明,KB4Rec是可行且有价值的。
另,笔者在毕业论文中采用了上文中提到的MovieLens数据集,在论文的总结与展望章节中,分析了采用的数据集具有一定的片面性。而KB4Rec数据集正好可以解决这个问题。
3.数据集的使用
数据集的创建者将KB4Rec发布在了GitHub上(数据集地址),可在GitHub中通过相应的代码调用数据集:
@article{
Zhao-DI-2019,
author = {
Wayne Xin Zhao and
Gaole He and
Kunlin Yang and
Hong{
-}Jian Dou and
Jin Huang and
Siqi Ouyang and
Ji{
-}Rong Wen},
title = {
KB4Rec: A Data Set for Linking Knowledge Bases with Recommender Systems