fastText --学习笔记

学习自此处
致谢李沐大神!

0、子词嵌入(fastText)

在法语、西班牙语、英语等语言中,一个词可能有多种内部结构和形成方式(实际上这是语言学中构词学的研究内容),为了解决这些问题,可以将单词进行结构拆分,以此来研究单词的词向量。

在 word2vec 中,没有直接利用构词学中的信息,无论是在skip-gram模型还是CBOW模型中,将形态不同的单词用不同的向量来表示。例如,“dog”和“dogs”分别用两个不同的向量表示,而模型中并未直接表达这两个向量之间的关系。有鉴于此,fastText 提出了子词嵌入(subword embedding)的方法,从而试图将构词信息引入 word2vec 中的skip-gram模型。

在 fastText 中,每个中心词被表示成子词的集合。下面我们用单词“where”作为例子来了解子词是如何产生的。首先,我们在单词的首尾分别添加特殊字符“<”和“>”以区分作为前后缀的子词。然后,将单词当成一个由字符构成的序列来提取 n元语法。例如当 n=3 时,我们得到所有长度为 3 的子词:

< wh, whe, her, ere, re >,以及特殊子词 < where >

在这里插入图片描述
可以看到原中心词向量被替换成了中心词的子词向量的和。
负采样的skip-gram模型的损失函数为:
在这里插入图片描述
将w的新的中心词向量作为替换可得损失函数:
在这里插入图片描述
以上面这种方式进行替换,可以把原单词中的词缀信息给学出来。此外,可以学习出跨语言之间的词的相关性。如乒乓球英文为table tennis,在德语中为Tischtennis,可以通过子词表达两个词的相关性。

fastText还有一个很重要的特性:由于子词在训练集合当中,当遇到新词的时候,可以通过学过的子词向量求和即可得到新词的词向量。

1、总结

(1)FastText 在 word2vec 中的跳字模型的基础上,将中心词向量表示成单词的子词向量之和。
(2)子词嵌入利用构词上的规律,通常可以提升生僻词表示的质量。
(3)由于子词数量可能很庞大,在实际是使用哈希函数来实现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值