Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

82 篇文章 10 订阅

Abstract & Introduction & Related Work

  • 研究任务
    • word representation
  • 已有方法和相关工作
    • 基于形态学的分解
  • 面临挑战
    • 流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说
  • 创新思路
    • 提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和
    • 允许我们为训练数据中没有出现的词计算词的表征
  • 实验结论

Model

我们通过考虑子词单位来建立形态学模型,并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架,然后介绍我们的子词模型,最后描述我们如何处理字符n-grams的字典

General model

Word2Vec的思想是用上下文词来预测中心词

预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在(或不存在)。对于位置t的词,我们将所有的上下文词视为正例,并从字典中随机抽取负例。对于一个选定的上下文位置c,使用二元逻辑损失,我们得到以下负对数似然:
在这里插入图片描述
s是向量内积
在这里插入图片描述

Subword model

每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号<和>,以便将前缀和后缀与其他字符序列区分开来。我们还将单词w本身包含在其n-grams的集合中,以学习每个单词的表示方法(除了字符n-grams之外)。以单词where和n=3为例,它将由字符n-grams来表示:
在这里插入图片描述
请注意,对应于单词her的序列 <her> 与来自单词where的 tri-gram her不同。在实践中,我们提取了n大于等于3和小于等于6的所有n-grams。这是一个非常简单的方法,可以考虑不同的n-grams集合,例如,提取所有的前缀和后缀

在这里插入图片描述
这个简单的模型允许在不同的词之间共享表征,从而允许学习稀有词的可靠表征

为了约束内存需求,使用哈希将所有的子词映射到一个整数
在这里插入图片描述

Results

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型,这与Schütze(1993)提出的一个想法有关。由于其简单性,我们的模型训练速度快,不需要任何预处理或监督。我们表明,我们的模型优于不考虑子词信息的基线,以及依靠形态分析的方法。我们将开放我们的模型的实现,以促进未来学习子词表征的工作的比较

Remark

简单,超级高效率,在工业落地中的表现不输BERT(效果差一点点,效率差百倍)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值