keras 生成句子向量 词向量_词向量评估方法

该文综述了词向量的评估方法,包括内在评估(相关性、类比、分类)和外在评估(下游任务表现)。研究发现不同方法在不同任务上的效果有差异,且词向量包含词频信息,对低频词表示不足。通过亚马逊众包平台进行直接评估,揭示了词向量质量的评估新视角。
摘要由CSDN通过智能技术生成

论文:Evaluation methods for unsupervised word embeddings

来源: ACL 2015

Note
本文是对词向量评估的方法综述:

  • 内在评估方法,直接评估词语之间的相似性
  • 外在评估方法,通过下游任务的表现来间接评估

得出两个结论:

  • 不同下游任务,不同的词向量构造方法表现有差异。一种方法不会完美适用于所有下游任务。(这个在今天已经是常识)
  • 词向量中蕴含词频信息,是词向量的一个缺陷。(数据驱动的弊端,对于低频词表现差)


1 背景及问题描述


词向量是在大规模语料上训练出来的中间产物。本文是对如何评估word-embeding的质量的一个综述。


2 已有的解决方案


词向量提供语法、语义信息。目前评估词向量的方法可以分为两类:

  • 内在(Intrinsic):直接评估词之间的语法、语义关系。
    • 相关性: 对两个词之间的相关性进行人工评分。两个词之间的cos相似度作为基于词向量的评分。通过比较cos相似度和人工评分的相关性,来评估。
    • 类比analogy: vec(中国)-vec(北京)=vec(法国)-vec(巴黎)
    • 分类:对词打上类别标签,通过词向量来聚类,评判聚类好坏
    • 词法:确定一个名词是主语还是宾语

2f9ff792ce1e7b8c0d110c53b154641e.png
  • 外在(Extrinsic):
    将训练好的词向量作为下游任务的输入特征,通过下游任务表现来评估词向量的质量高低。比如NER、情感分析等下游任务。

7531970dc893afcaadb192474c206ac9.png


3 提出的解决方案


通过亚马逊劳务众包平台(Amazon MechanicalTurk)直接评估不同词向量的质量高低。直接人工评相关性

  • 精心人为设计100个query词(考虑了词频、词性、抽象/具体)
  • 通过6种不同构造词向量的方法,将query词最相似的前k个候选词
  • 让众包人员选出最相似的一个词

如果某种方法选出的候选词和人工评估的吻合度越高,代表效果越好。

8a4a5285c783a950cd12f66d82d38fae.png

一致性(离群点检测)
通过词向量构造数据集:

  • 自动找出query word(a)两个最相似的词语b和c,
  • 和一个不相关的词语,作为离群点
  • 让众包人员从四个词语中,去找到不相关的那个词语

众包人员找到离群点的Precision作为评估指标。

c459b00bdffd389b97b0af290364c11e.png


4 词频对词向量的影响


拿词向量作为特征,通过LR来预测一个词是否高频词。对于各种方法,都能比较准确地进行分类。得出结论:词向量蕴含了词频的信息。
词向量的相似度和词频比较强的相关性。

455cbcc4796e4d07212af9ed56352f3d.png
Note
理论而言,考虑两个词的相关性,和词频没有任何关系。(不能说一个词越常见,就和query word越相似)
但词向量是基于大规模语料训练出来的,数据驱动,数据中高频词和低频词对词向量是有影响的。本文通过词频分类、相关性分析,指出了词向量的一个缺陷。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值