【自然语言处理之文本处理】——词向量好坏的评估方法
主要包括语义相关任务、语义类比任务、下游任务如文本分类任务
语义相关性任务
评价两个词之间的语义相关性,具体方法由监督模式实现,首先需要标记文件。相似性越高表示嵌入质量越好。评价数据集往往是成对的单词,两个单词的embedding 余弦相似度计算出来应该具有较高的相关性和人的主观评价分数。
语义类比任务
考察不同单词间的语义关系能力,一般使用向量间距离来进行寻找,例如:queen-king+man=women
需要准备标记文件,根据寻找出来的词的正确率判断词向量的质量。
下游任务
比如词性标注、命名实体识别、句法分析、文本句子分类等,将词向量作为输入,衡量下游任务指标性能的变化。
不同词嵌入模型的质量:
Evaluation of sentence embeddings in downstream and linguistic probing tasks
小结
分布式词嵌入解决了 one-hot 表示法存在的维度爆炸以及语义消失的问题,为下游的NLP 任务提供了更完整的语言模型。
ELMo、OpenAI GPT1(2)、Bert 等语言模型在大多数任务上的表现往往优于word2Vec、GloVe、FastText 等词嵌入模型。
然而 ELMo、OpenAI GPT1(2)、Bert 等这些模型相对比较复杂,微调过程相对庞大,使用的难度更高。如果是一些简单的任务,word2Vec、GloVe 完全可以胜任。