论文出发点:
- 现成的BERT模型在它们的参数中存储了多少关于推荐项目(电影,书籍,音乐)的知识
现象:BERT在NLP领域如此强劲的表现从侧面体现bert的参数里存储了 事实性知识
做了一系列探测实验探查BERT蕴含的两类知识:
- content-based:通过item的文本内容匹配item的标题(类别)
- collaborative-based:通过匹配相似item
通过三项任务:
- MLM掩码语言模型:通过完形填空的形式来做文本内容与文本流派的匹配;
- 通过下一句预测和相似度比较来探寻BERT在不fine-tune的情况下的信息检索和推荐能力。
结论:
- BERT在其参数中存储了关于书籍、电影和音乐内容的知识;
- 基于content的知识多于基于collaborative的知识;
- 在面对有对抗数据的对话数据上表现不理想
第一个任务:MLM(掩码语言模型)
目标:生成item(电影)的流派
形式:完形填空,prompt,如:Pulp Fiction is a movie of the ___ genre.