词向量评价方法
paper:Evaluation methods for unsupervised word embeddings
词向量评价可以分为: 绝对内在评估 和 绝对外在评估
Introduction
提出本文主要讨论的是如何去衡量词向量,而不是如何生成词向量,衡量词向量的方式有两种,外部和内部评价
外部评价:把词向量作为下游任务的输入
内部评价:衡量词之间的句法和语义
绝对内在评价 absolute intrinsic evaluation
1、Relatedness: 相关性 ,对于dasset’里面词,如果两个词相关,就对应的Cosine similarity 应该高。具体方法由监督模式实现,首先需要一份如下的标记文件,一般可以由人工标注:
学生 上课 0.78
教师 备课 0.8
...
**2、Analogy: ** 类比 推理, 对于一个单词 x 找到 y单词,使得x:y 的关系要和a:b 的关系一样
类似 queen-king+man=women
3、Categorization: 分类,把词聚类成不同的堆,看是否聚类准确
4、Selectional preference: 确定一个词是某个动词的主语还是宾语 判断某名词是更倾向做某个动词的主语还是宾语, 例如一般顺序是 he runs 而不是 runs he
结果 :
细节:维度是50 ,词典大小是103647 从中也可以看出CBOW的效果比较好,并且对于不同词向量的评估,要依据相应的任务来评估
绝对外在评价 absolute intrinsic evaluation
两个评估任务:
-
Noun phrase chunking:名词分块
-
Sentiment classification:情感分类
从中同样可以看出,没有一种词向量在所有的下游任务中都表现最好,所以对于不同下游任务,我们应该尝试不同词向量的表示。
参考:https://zhuanlan.zhihu.com/p/156828242