Artetxe2018CoNLL_Uncovering divergent linguistic information in word embeddings...

论文探讨了词嵌入的潜在信息,提出了一种词嵌入的后处理方法,增强了词的n阶相似度计算。通过这种方法,不仅改进了内在的词语类比和相似度评估,还在语义文本相似度任务中提升了性能。研究表明,词嵌入包含了丰富的语言信息,但标准嵌入的局限性限制了其表现。后处理在非监督学习系统中尤其有效。
摘要由CSDN通过智能技术生成

Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation

1. Abstract

  • 一篇关于词嵌入的论文
  • 作者认为词嵌入所能给出的信息,远超人们的想象
  • 主要贡献就是提出了词嵌入的后处理,以及 n n n阶相似度矩的含义及计算方法

2. Introduction

  • 词嵌入是当下NLP领域的热点之一,诸多用于训练密集向量表示的非监督学习方法已经被相继提出,并成功用于句法分析、主题建模以及文本分类等领域
  • 目前所有词嵌入构建的基本思想都是,利用大型单语语料库中的同现统计co-occurrence statistics ),以及相似词汇必定出现在相似文本环境中的分布式假设,将相似的向量表示分配给相似的词汇
  • 但是如何定义“相似”,或者说嵌入模型应该捕捉词语之间什么样的关系仍不明确。例如有些人将真实相似性(轿车-汽车)与关联性(车-公路)加以区分,有些人认为应重点关注语义(唱歌-咏唱)和语法(sing-singing)相似度。总而言之,也就是将相似度衡量的两个轴划分为了语义/语法轴相似/关联轴

3. Proposed post-processing

X X X X i ∗ X_{i*} Xi s i m ( i , j ) = X i ∗ ⋅ X j ∗ sim(i,j)=X_{i*}·X_{j*} sim(i,j)=XiXj
词嵌入矩阵 i i i个词的嵌入向量 i i i和词 j j j的相似度
  • 从上表可以得知,如果定义一个相似度矩阵 M ( X ) = X X T M(X)=XX^T M(X)=XXT,那么显然就有 s i m ( i , j ) = M ( X ) i j sim(i,j)=M(X)_{ij} sim(i,j)=M(X)ij

  • 基于上述定义的一阶相似度量方法,可以延伸到二阶相似,即相似度并不体现在两个词有多相似,而是这两个词与第三个词有多相似(猫-哺乳动物,鲸鱼-哺乳动物)。这种情况下,即便这两个词不是很相似,但如果它们同时与另外一个词有着较高的相似度,我们就认为这两个词二阶相似。以此类推,还有三阶相似 N N N阶相似等。

  • 定义二阶相似度矩阵 M 2 ( X ) = X X T X X T M_2(X)=XX^TXX^T M2(X)=XXTXXT,从而 s i m 2 ( i , j ) = M 2 ( x ) i j sim_2(i,j)=M_2(x)_{ij} sim2(i,j)=M2(x)ij,并且可以看出 M 2 ( X ) = M ( M ( X )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值