Datawhale 零基础⼊⻔NLP-Task12 Information from parts of words:Subword Models

1.Human language sounds: Phonetics and phonology

在日常生活中,我们往往通过音节来辨别词汇。一个很常见的例子,比如社交网络上,大家表达自己的心情用的词汇通常不是很标准的,类似俚语的样子。如果使用牛津词典这样的官方词典自然是没有这些词汇的,所以用标准词库或者文章训练出来的“知乎者也”是与俗世水土不服的。那怎么办?见着就收的方法是不可取的,那样就会让词库非常大,对于一些出现频率较低的词汇,由于训练样本不足,很容易出现过拟合。一个好的方法就是弱化单词与单词的差异,而是从字母去用类似聚类的方法找关联,然后训练出一些类似音节的词。
facebook截图

2.Purely character-level models

word-level和character-level的模型,最终的BLEU得分相近。
BLEU得分情况

3.Sub-word models:two trends

1)same architecture as for world-level model
2)hybrid architectures:
俗话说物极必反,单纯的使用词汇和单纯的使用字母都是有缺陷的,所以有人提出来介于两者之间的训练方法sub-word。如下的例子,就是在dictionary中根据词频确vocabulary。
根据出现的频率采集subword

4.Character-level to build word-level

通过卷积神经网络,将characters提炼成word embeddings
通过卷积神经网络从character提取word
技术路线展示

5.Chars for word embeddings

chars for word embeddings* 与word2vector相似,但是使用的是character

  • 双向LSTM计算embedding
  • 模型在尝试抓取词意
  • 模型可以推出词根

通过FastText提炼出词嵌入
An extension of the w2v skip-gram model with character n-grams

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值