- 以MovieLens数据集为例
- item_index2entity_id.txt
文件第一列是item的id,第二列是知识图谱中电影的id,本文件将原电影item的id转换为知识图谱中的id,第一列item是在kg.txt文件中存在才会被选上。
- kg.txt
文件第一列是item的编号,第二列是三元组(h,r,t),第三列是目标实体的编号(可以是演员的编号,导演的编号,制片公司的编号等等,第三列可以重复,即电影item可以是相同的目标实体),本文是利用微软的Satori生成的
- 正负样本的生成
正样本是rating大于等于4的评分,负样本是没有评分中随机生成与正样本相同数目的
原作者对知识图谱的生成的回复(link:https://github.com/hwwang55/KGCN/issues/9):
item_index2entity_id.txt文件的作用(link:https://github.com/hwwang55/KGCN/issues/26
):
邻居实体的选择问题(link:Questions about choosing neighbors for each entity · Issue #24 · hwwang55/KGCN · GitHub):
其他解析:
# 数据集解析:https://cloud.tencent.com/developer/article/1492199
# 数据集解析:https://zhuanlan.zhihu.com/p/361029026
# 视频解析:https://www.bilibili.com/video/BV1h7411E7pB?from=search&seid=180437955850035924&spm_id_from=333.337.0.0
# 视频解析:https://www.bilibili.com/video/BV1ey4y117Wk?spm_id_from=333.999.0.0
# github解析:https://github.com/hwwang55/KGCN/issues/9