Raki的读paper小记：FastText：Enriching Word Vectors with Subword Information

最新推荐文章于 2024-10-05 11:46:41 发布

爱睡觉的Raki

最新推荐文章于 2024-10-05 11:46:41 发布

阅读量961

点赞数

分类专栏： NLP 读paper 文章标签：自然语言处理深度学习机器学习人工智能

本文链接：https://blog.csdn.net/raki_j/article/details/123609151

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

NLP

82 篇文章 10 订阅

订阅专栏

Abstract & Introduction & Related Work

研究任务
- word representation
已有方法和相关工作
- 基于形态学的分解
面临挑战
- 流行的学习这种表征的模型忽略了单词的形态，为每个单词分配了一个不同的向量。这是一个局限性，特别是对于具有大词汇量和许多稀有词汇的语言来说
创新思路
- 提出了一种基于skipgram的模型，每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示；单词被表示为这些表示的总和
- 允许我们为训练数据中没有出现的词计算词的表征
实验结论

Model

我们通过考虑子词单位来建立形态学模型，并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架，然后介绍我们的子词模型，最后描述我们如何处理字符n-grams的字典

General model

Word2Vec的思想是用上下文词来预测中心词

预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在（或不存在）。对于位置t的词，我们将所有的上下文词视为正例，并从字典中随机抽取负例。对于一个选定的上下文位置c，使用二元逻辑损失，我们得到以下负对数似然：
在这里插入图片描述
s是向量内积

Subword model

每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号<和>，以便将前缀和后缀与其他字符序列区分开来。我们还将单词w本身包含在其n-grams的集合中，以学习每个单词的表示方法（除了字符n-grams之外）。以单词where和n=3为例，它将由字符n-grams来表示：
在这里插入图片描述
请注意，对应于单词her的序列 <her> 与来自单词where的 tri-gram her不同。在实践中，我们提取了n大于等于3和小于等于6的所有n-grams。这是一个非常简单的方法，可以考虑不同的n-grams集合，例如，提取所有的前缀和后缀

在这里插入图片描述
这个简单的模型允许在不同的词之间共享表征，从而允许学习稀有词的可靠表征

为了约束内存需求，使用哈希将所有的子词映射到一个整数
在这里插入图片描述

Results

在这里插入图片描述

Conclusion

在本文中，我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型，这与Schütze（1993）提出的一个想法有关。由于其简单性，我们的模型训练速度快，不需要任何预处理或监督。我们表明，我们的模型优于不考虑子词信息的基线，以及依靠形态分析的方法。我们将开放我们的模型的实现，以促进未来学习子词表征的工作的比较