从词的向量表示讲起:
One-hot Encoding:
每个词的大小就是词典的大小。缺点:空间消耗比较大。
Bag-of-words:
文档向量表示,词出现的次数作为数值,词典大小为文档的大小。缺点:无法表示词的语义。
词的分布式向量表示:
词的语义是由什么决定?
词是符号化的,词的语义由它被使用的上下文确定。
Word Embedding(词嵌入):
通过统计词上下文语义规律,并通过词的上下文计算词的分布式规律。
每一个维度都是有数值的,维度远远低于词库大小,通过语料统计学习出来的。称为低维稠密的向量表示,也叫词的嵌入表示。
词向量学习模型举例:
CBow:wordtoword的模型,前几个词和后几个词预测中间的词。
Skip-gram:中间词预测前后的几个词。
One-hot Encoding:任意两两之间相似度为0
词嵌入->知识图谱嵌入:
知识图谱嵌入模型-TransE:
给定一个三元组,h代表主语,r代表谓语,t宾语。
h+r=t
知识图谱嵌入模型-DistMult:
h*Mr=t
知识图谱嵌入模型:推理问题
测试三元组(h,r,t):尾实体预测(h,r,?)or 头实体预测(?,r,t)