【为什么要进行词表示】
为了让计算机看懂
为了计算近义词:酒店 ≈ 旅馆
为了表示词之间的关系:中国-北京≈美国-华盛顿;king-man≈queen-woman
【用同义词、上位词表示】
用“美丽”的同义词表示“美丽”:漂亮、大方、靓丽等。
用“NLP”的上位词表示“NLP”:信息学、科学、实体等。上位词:指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词
用同义词、上位词表示有什么问题:同义词的细微差别无法体现、一些新含义无法捕捉(666原来表示数字,现在也有干得很漂亮的意思)、具有主观性、数据稀疏、依赖人工标注和调试。
【one-hot表示】
词表{美丽,信息学,实干,兴邦}
one-hot词向量表示如下:
美丽=[1,0,0,0]
信息学=[0,1,0,0]
这样表示,利于计算文章的相似度。但是不利于计算两个词之间的相似度。
【使用contextual表示】
使用上下文语境来表示:一个词的含义被经常出现在它周围的词所定义。
例如用目标词上下文其他词出现的次数/重要性来表示它。
好处显然易见。
缺点:词表变大之后,需要更多存储。出现次数少的词,它的向量表示是稀疏的,不