fastText --学习笔记

最新推荐文章于 2021-12-22 15:04:15 发布

Juanly Jack

最新推荐文章于 2021-12-22 15:04:15 发布

阅读量248

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/m0_38088359/article/details/83827934

版权

NLP 专栏收录该内容

26 篇文章 1 订阅

订阅专栏

学习自此处
致谢李沐大神！

0、子词嵌入（fastText）

在法语、西班牙语、英语等语言中，一个词可能有多种内部结构和形成方式（实际上这是语言学中构词学的研究内容），为了解决这些问题，可以将单词进行结构拆分，以此来研究单词的词向量。

在 word2vec 中，没有直接利用构词学中的信息，无论是在skip-gram模型还是CBOW模型中，将形态不同的单词用不同的向量来表示。例如，“dog”和“dogs”分别用两个不同的向量表示，而模型中并未直接表达这两个向量之间的关系。有鉴于此，fastText 提出了子词嵌入（subword embedding）的方法，从而试图将构词信息引入 word2vec 中的skip-gram模型。

在 fastText 中，每个中心词被表示成子词的集合。下面我们用单词“where”作为例子来了解子词是如何产生的。首先，我们在单词的首尾分别添加特殊字符“<”和“>”以区分作为前后缀的子词。然后，将单词当成一个由字符构成的序列来提取 n元语法。例如当 n=3 时，我们得到所有长度为 3 的子词：

< wh, whe, her, ere, re >，以及特殊子词 < where >

在这里插入图片描述
可以看到原中心词向量被替换成了中心词的子词向量的和。
负采样的skip-gram模型的损失函数为：

将w的新的中心词向量作为替换可得损失函数：

以上面这种方式进行替换，可以把原单词中的词缀信息给学出来。此外，可以学习出跨语言之间的词的相关性。如乒乓球英文为table tennis，在德语中为Tischtennis，可以通过子词表达两个词的相关性。