Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

最新推荐文章于 2024-06-13 09:43:17 发布

oklaMZW

最新推荐文章于 2024-06-13 09:43:17 发布

阅读量679

点赞数

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/qq_29288811/article/details/86760552

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Probabilistic FastText for Multi-Sense Word Embeddings

pages 1–11, July 2018 Association for Computational Linguistics

多义词的概率快文本向量

Probabilistic FastText for Multi-Sense Word Embeddings

传统的WORD2VEC 需要预定义的字典，就不能表示一些少见的词。

FastText是character-level的词向量，每一个词都有一组向量，每个向量表示n-gram.

这样就可以把词之间的共同根给联系起来。

还有一个方法是用概率分布来表示词。例如高斯分布。（高斯分布即正态分布，高斯混合即多个正态分布混合在一起，其中每个正态分布即为一个组件，GMM即高斯混合模型，是一种聚类算法。只要别把正态分布想当然成一维的就行）

Probabilistic FastText（PFT）就是基于概率的character-level的词向量。本文分别用了一个高斯(PFT-G)和一个混合密度高斯（PFT-GM）来表示词。

1.概率子词的表示

每一个词都表示成拥有K个组件的高斯混合。

一个词w关联一个密度函数 $f(x) = \sum _{i=1}^{K} p_{w,i}\mathcal N(x; \vec{\mu}_{w,i}, \Sigma _{w,i})$

其中 $\{\mu_{w,i}\}^{K}_{k=1}$ 是平均向量， $\{\Sigma_{w,i} \}$ 是协方差矩阵， $\{p_{w,i}\}^K_{k=1}$ 是组件的概率 加起来等于1。

平均向量： $\mu _ w = \tfrac{1}{\left | NG_w \right | + 1}\left ( v_w + \sum _{g\in NG_w} z_g \right ) \qquad (1)$

其中 $z_g$ 是n-gram g的关联向量， $v_w$ 是词w的字典表示， $NG_w$ 是词w的一组n-gram

例如： 3-grams:<be, bea, eau, aut, uti, tif, ful, ul>

4-grams: <bea, beau .., iful, ful>

图1a表示平均向量，图1b和图1c表示本文的俩个模型（PFT-G）和（PFT-GM）

1a:一个高斯组件和它的子词结构，黑箭头表示最终平均向量，灰箭头表示n-gram向量

1b:PFT-G每一个高斯组件的平均向量都是一个子词向量

1c:PFT-GM对于每一个高斯混合，一个组件的平均向量是从子词向量得到的，其他的组件是基于字典向量的（减少子词结构的限制，促进含义发现的独立性..）。

2.词之间的相似度测量

用（？）Hilbert space $<\cdot ,\cdot> _{L_2}$ 中一般的点积，来定义两个词 f 和 g 的能量

$E(f,g)=log<f,g>_{L_2}= log \int f(x)g(x)dx$

在高斯混合模型中

$f(x) = \Sigma ^K _{i=1} p_i \mathcal N(x; \vec{\mu}_{f,i}, \Sigma _{f,i}), \Sigma^K_{i=1}p_i=1$ ,

$g(x) = \Sigma ^K _{i=1} q_i \mathcal N(x; \vec{\mu}_{g,i}, \Sigma _{g,i}),\Sigma^K_{i=1}q_i=1$ .

即 $E(f,g)=log\sum^K_{j=1}\sum^K_{i=1}p_i q_j e^{\xi _{i,j}} \qquad (2)$

其中 $\xi _{i,j}$ 是词f的组件i 和词g 的组件j 的偏能量，如下图

3.损失函数

模型的参数是每个词的 $v_w$ 和每个n-gram的 $z_g$ 。

We train the model by pushing the energy of a true context pair w and c to be higher than the negative context pair w and n by a margin m. （？？？）

$L(f,g)=max[0, m-E(f,g)+E(f,n)].\qquad(4)$

4.能量简化

用每一个组件的球面协方差来简化能量方程：

$\xi _{i,j} = - \tfrac{\alpha }{2}\cdot \left \| \mu _{f,i} - \mu _{g,j}\right \|^2, \qquad (5)$

其中 $\alpha$ 是一个等式3 中逆协方差的比例（scale）

如果协方差矩阵是球面的并且对所有的组件是相同的（？？？），则等式5 和等式3 是相等的

5.词抽样

给定一个词w, 为了生成它的文本词 c ，本文选择一个固定长度 $l$ 的文本窗中的邻近词。

本文采用了（Mikolov et al.(2013b)）的类似方法。（此处需要一个连接额）

该方法可以减小像‘a’, 'the', 'to’等词的重要性。

一个词w 有概率：

$P(w)=1-\sqrt{t/f(w)}$

其中 $f(w)$ 是词w 在文本中的频率， t 是频率阈值。

一个负的文本词用 $P(w) \propto U(w) ^{3/4}$ 来选择。其中 $U(w)$ 是词w的单字组的概率（unigram probability）。3/4同样可以减少高频词的重要性将训练重点集中在其他低频词上。

实验

1训练细节

English: concatenation of UKWAC and WACKYPEDIA

foreign: FRWAC (French), DEWAC (German), ITWAC (Italian)

现在英语中调参，再适用到外语中。

等式4中的m : $m\in \{ 0.01, 0.1, 1, 10, 100\}$

等式5中的 $\alpha$ ： $\alpha \in \{ \frac{1}{5\times 10 ^{-3}}, \frac{1}{10 ^{-3}}, \frac{1}{2\times 10 ^{-4}}, \frac{1}{1\times 10 ^{-4}},\}$

学习率 $\gamma$ ： $\gamma = \{ 10 ^{-4}, 10^{-5}, 10^{-6} \}$

高斯组件 K = 2

文本窗长度 $l$ = 10

子抽样阈值 t = $10^{-5}$

n-gram: n= 3, 4, 5, 6

2定性评估 - 最近邻

3词相似度评估

字典级密度嵌入和FASTTEST的比较

多原型模型的比较

4外语嵌入评估

5定性评估 - 子词分解

组件的数量

K>2 时并不会整体上提高词的近似结果。

K=2 时会比 K=1 学习到更多的表示。

oklaMZW

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

Probabilistic FastText for Multi-Sense Word Embeddingspages 1–11, July 2018 Association for Computational Linguistics多义词的概率快文本向量目录Probabilistic FastText for Multi-Sense Word Embeddings多义词...
复制链接

扫一扫