Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

Probabilistic FastText for Multi-Sense Word Embeddings

pages 1–11, July 2018 Association for Computational Linguistics

多义词的概率快文本向量

 

目录

Probabilistic FastText for Multi-Sense Word Embeddings

多义词的概率快文本向量

1.概率子词的表示

2.词之间的相似度测量

3.损失函数

4.能量简化

5.词抽样

实验

1训练细节

2定性评估 - 最近邻

3词相似度评估

4外语嵌入评估

5定性评估 - 子词分解

组件的数量


 

传统的WORD2VEC 需要预定义的字典, 就不能表示一些少见的词。

FastText是character-level的词向量, 每一个词都有一组向量,每个向量表示n-gram.

这样就可以把词之间的共同根给联系起来。

还有一个方法是用概率分布来表示词。例如高斯分布。(高斯分布即正态分布,高斯混合即多个正态分布混合在一起,其中每个正态分布即为一个组件,GMM即高斯混合模型,是一种聚类算法。只要别把正态分布想当然成一维的就行)

Probabilistic FastText(PFT)就是基于概率的character-level的词向量。本文分别用了一个高斯(PFT-G)和一个混合密度高斯(PFT-GM)来表示词。

1.概率子词的表示

 

每一个词都表示成拥有K个组件的高斯混合。

一个词w关联一个密度函数f(x) = \sum _{i=1}^{K} p_{w,i}\mathcal N(x; \vec{\mu}_{w,i}, \Sigma _{w,i})

其中\{\mu_{w,i}\}^{K}_{k=1}平均向量\{\Sigma_{w,i} \}协方差矩阵\{p_{w,i}\}^K_{k=1}组件的概率 加起来等于1。

平均向量\mu _ w = \tfrac{1}{\left | NG_w \right | + 1}\left ( v_w + \sum _{g\in NG_w} z_g \right ) \qquad (1)

其中z_g是n-gram g的关联向量,v_w是词w的字典表示,NG_w是词w的一组n-gram

例如: 3-grams:<be, bea, eau, aut, uti, tif, ful, ul>

           4-grams: <bea, beau .., iful, ful>

图1a表示平均向量, 图1b和图1c表示本文的俩个模型(PFT-G)和(PFT-GM)

1a:一个高斯组件和它的子词结构,黑箭头表示最终平均向量,灰箭头表示n-gram向量

1b:PFT-G每一个高斯组件的平均向量都是一个子词向量

1c:PFT-GM对于每一个高斯混合,一个组件的平均向量是从子词向量得到的,其他的组件是基于字典向量的(减少子词结构的限制,促进含义发现的独立性..)。

2.词之间的相似度测量

用(?)Hilbert space <\cdot ,\cdot> _{L_2}中一般的点积,来定义两个词 f 和 g 的能量

E(f,g)=log<f,g>_{L_2}= log \int f(x)g(x)dx

在高斯混合模型中

     f(x) = \Sigma ^K _{i=1} p_i \mathcal N(x; \vec{\mu}_{f,i}, \Sigma _{f,i}), \Sigma^K_{i=1}p_i=1 ,   

     g(x) = \Sigma ^K _{i=1} q_i \mathcal N(x; \vec{\mu}_{g,i}, \Sigma _{g,i}),\Sigma^K_{i=1}q_i=1.

即 E(f,g)=log\sum^K_{j=1}\sum^K_{i=1}p_i q_j e^{\xi _{i,j}} \qquad (2)

其中\xi _{i,j}是词f的组件i 和 词g 的组件j 的偏能量,如下图

 

3.损失函数

模型的参数是 每个词的 v_w 和 每个n-gram的 z_g

We train the model by pushing the energy of a true context pair w and c to be higher than the negative context pair w and n by a margin m. (???)

 

L(f,g)=max[0, m-E(f,g)+E(f,n)].\qquad(4)

4.能量简化

用每一个组件的球面协方差来简化能量方程:

\xi _{i,j} = - \tfrac{\alpha }{2}\cdot \left \| \mu _{f,i} - \mu _{g,j}\right \|^2, \qquad (5)

其中 \alpha 是一个等式3 中逆协方差的比例(scale)

如果协方差矩阵是球面的并且对所有的组件是相同的 (???), 则 等式5 和等式3 是相等的

5.词抽样

给定一个词w, 为了生成它的文本词 c ,本文选择一个固定长度 l 的文本窗中的邻近词。

本文采用了(Mikolov et al.(2013b))的类似方法。(此处需要一个连接额)

该方法可以减小像‘a’, 'the', 'to’等词的重要性。

一个词w 有概率:

P(w)=1-\sqrt{t/f(w)}

其中f(w)是词w 在文本中的频率, t 是频率阈值。

一个负的文本词 用 P(w) \propto U(w) ^{3/4} 来选择。其中U(w)是词w的单字组的概率(unigram probability)。3/4同样可以减少高频词的重要性将训练重点集中在其他低频词上。

实验

1训练细节

English: concatenation of UKWAC and WACKYPEDIA

foreign: FRWAC (French), DEWAC (German), ITWAC (Italian)

现在英语中调参,再适用到外语中。

等式4中的m : m\in \{ 0.01, 0.1, 1, 10, 100\}

等式5中的\alpha\alpha \in \{ \frac{1}{5\times 10 ^{-3}}, \frac{1}{10 ^{-3}}, \frac{1}{2\times 10 ^{-4}}, \frac{1}{1\times 10 ^{-4}},\}

学习率\gamma\gamma = \{ 10 ^{-4}, 10^{-5}, 10^{-6} \}

高斯组件 K = 2

文本窗长度 l  = 10

子抽样阈值 t = 10^{-5}

n-gram: n= 3, 4, 5, 6

2定性评估 - 最近邻

3词相似度评估

字典级密度嵌入和FASTTEST的比较

多原型模型的比较

4外语嵌入评估

5定性评估 - 子词分解

组件的数量

K>2 时并不会整体上提高词的近似结果。

K=2 时会比 K=1 学习到更多的表示。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值