Probabilistic FastText for Multi-Sense Word Embeddings
pages 1–11, July 2018 Association for Computational Linguistics
多义词的概率快文本向量
目录
Probabilistic FastText for Multi-Sense Word Embeddings
传统的WORD2VEC 需要预定义的字典, 就不能表示一些少见的词。
FastText是character-level的词向量, 每一个词都有一组向量,每个向量表示n-gram.
这样就可以把词之间的共同根给联系起来。
还有一个方法是用概率分布来表示词。例如高斯分布。(高斯分布即正态分布,高斯混合即多个正态分布混合在一起,其中每个正态分布即为一个组件,GMM即高斯混合模型,是一种聚类算法。只要别把正态分布想当然成一维的就行)
Probabilistic FastText(PFT)就是基于概率的character-level的词向量。本文分别用了一个高斯(PFT-G)和一个混合密度高斯(PFT-GM)来表示词。
1.概率子词的表示
每一个词都表示成拥有K个组件的高斯混合。
一个词w关联一个密度函数
其中是平均向量,
是协方差矩阵,
是组件的概率 加起来等于1。
平均向量:
其中是n-gram g的关联向量,
是词w的字典表示,
是词w的一组n-gram
例如: 3-grams:<be, bea, eau, aut, uti, tif, ful, ul>
4-grams: <bea, beau .., iful, ful>
图1a表示平均向量, 图1b和图1c表示本文的俩个模型(PFT-G)和(PFT-GM)
1a:一个高斯组件和它的子词结构,黑箭头表示最终平均向量,灰箭头表示n-gram向量
1b:PFT-G每一个高斯组件的平均向量都是一个子词向量
1c:PFT-GM对于每一个高斯混合,一个组件的平均向量是从子词向量得到的,其他的组件是基于字典向量的(减少子词结构的限制,促进含义发现的独立性..)。
2.词之间的相似度测量
用(?)Hilbert space 中一般的点积,来定义两个词 f 和 g 的能量
在高斯混合模型中
,
.
即
其中是词f的组件i 和 词g 的组件j 的偏能量,如下图
3.损失函数
模型的参数是 每个词的 和 每个n-gram的
。
We train the model by pushing the energy of a true context pair w and c to be higher than the negative context pair w and n by a margin m. (???)
4.能量简化
用每一个组件的球面协方差来简化能量方程:
其中 是一个等式3 中逆协方差的比例(scale)
如果协方差矩阵是球面的并且对所有的组件是相同的 (???), 则 等式5 和等式3 是相等的
5.词抽样
给定一个词w, 为了生成它的文本词 c ,本文选择一个固定长度 的文本窗中的邻近词。
本文采用了(Mikolov et al.(2013b))的类似方法。(此处需要一个连接额)
该方法可以减小像‘a’, 'the', 'to’等词的重要性。
一个词w 有概率:
其中是词w 在文本中的频率, t 是频率阈值。
一个负的文本词 用 来选择。其中
是词w的单字组的概率(unigram probability)。3/4同样可以减少高频词的重要性将训练重点集中在其他低频词上。
实验
1训练细节
English: concatenation of UKWAC and WACKYPEDIA
foreign: FRWAC (French), DEWAC (German), ITWAC (Italian)
现在英语中调参,再适用到外语中。
等式4中的m :
等式5中的:
学习率:
高斯组件 K = 2
文本窗长度 = 10
子抽样阈值 t =
n-gram: n= 3, 4, 5, 6
2定性评估 - 最近邻
3词相似度评估
字典级密度嵌入和FASTTEST的比较
多原型模型的比较
4外语嵌入评估
5定性评估 - 子词分解
组件的数量
K>2 时并不会整体上提高词的近似结果。
K=2 时会比 K=1 学习到更多的表示。