在语言建模任务中,基于局部上下文预测单词或单词块,对于学习单词嵌入和与上下文相关的短语表示非常有效。因为将世界知识编码为机器可读的知识库或人类可读的百科全书这一努力倾向于以实体为中心,所以我们研究了fill-in-the-blank(填空)任务从文本上下文(实体被提及)中学习实体上下文独立的表示。我们证明了对神经模型的大规模训练使我们能够学习高质量的实体表示,并在四个方面证明了结果:(1)现有的实体级类型基准,包括在TypeNet上比之前减少了64%的错误;(2)新的少样本类型重建任务;(3)现有的实体链接基准,我们在CoNLL-Aida上不使用链接特定的特征实现了最优结果,且在TAC-KBP 2010上不使用任何别名表、外部知识库或领域训练数据实现了89.8%的分数;(4)回答琐事问题,这些问题可以唯一标识实体。我们的全局实体表示对细粒度的类型类别进行编码,例如Scottish footballers,且能回答琐事问题,如Who was the last inmate of Spandau jail in Berlin?
完整版我写到知乎里了,没有在这边重新写一遍,还请见谅。
https://zhuanlan.zhihu.com/p/161819197
若有不当之处,还请批评指正,谢谢。