Artetxe2018CoNLL_Uncovering divergent linguistic information in word embeddings...

最新推荐文章于 2019-08-27 17:27:12 发布

Geek Fly

最新推荐文章于 2019-08-27 17:27:12 发布

阅读量492

点赞数

分类专栏：论文阅读文章标签： nlp embedding machine learning deep learning

本文链接：https://blog.csdn.net/Real_Brilliant/article/details/83626361

版权

论文探讨了词嵌入的潜在信息，提出了一种词嵌入的后处理方法，增强了词的n阶相似度计算。通过这种方法，不仅改进了内在的词语类比和相似度评估，还在语义文本相似度任务中提升了性能。研究表明，词嵌入包含了丰富的语言信息，但标准嵌入的局限性限制了其表现。后处理在非监督学习系统中尤其有效。

摘要由CSDN通过智能技术生成

1. Abstract

词嵌入是当下NLP领域的热点之一，诸多用于训练词的密集向量表示的非监督学习方法已经被相继提出，并成功用于句法分析、主题建模以及文本分类等领域
目前所有词嵌入构建的基本思想都是，利用大型单语语料库中的同现统计（co-occurrence statistics ），以及相似词汇必定出现在相似文本环境中的分布式假设，将相似的向量表示分配给相似的词汇
但是如何定义“相似”，或者说嵌入模型应该捕捉词语之间什么样的关系仍不明确。例如有些人将真实相似性（轿车-汽车）与关联性（车-公路）加以区分，有些人认为应重点关注语义（唱歌-咏唱）和语法（sing-singing）相似度。总而言之，也就是将相似度衡量的两个轴划分为了语义/语法轴，相似/关联轴。

$X$	$X_{i*}$	$sim(i,j)=X_{i}·X_{j}$
词嵌入矩阵	第 $i$ 个词的嵌入向量	词 $i$ 和词 $j$ 的相似度

从上表可以得知，如果定义一个相似度矩阵 $M(X)=XX^T$ ，那么显然就有 $sim(i,j)=M(X)_{ij}$ 。
基于上述定义的一阶相似度量方法，可以延伸到二阶相似，即相似度并不体现在两个词有多相似，而是这两个词与第三个词有多相似（猫-哺乳动物，鲸鱼-哺乳动物）。这种情况下，即便这两个词不是很相似，但如果它们同时与另外一个词有着较高的相似度，我们就认为这两个词二阶相似。以此类推，还有三阶相似， $N$ 阶相似等。
定义二阶相似度矩阵 $M_2(X)=XX^TXX^T$ ，从而 $sim_2(i,j)=M_2(x)_{ij}$ ，并且可以看出

关注

专栏目录