CS224n学习笔记 12_Subword Models

Human language sounds: Phonetics and phonology

Phonetics 语音学是一种音流——物理学或生物学。 Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme音素或者是独特的特征;这也许是一种普遍的类型学,但却是一种特殊的语言实现。
在这里插入图片描述

Character-Level Models

词嵌入可以由字符嵌入组成

  • 为未知单词生成嵌入
  • 相似的拼写共享相似的嵌入
  • 解决OOV问题

连续语言可以作为字符处理:即所有的语言处理均建立在字符序列上,不考虑 word-level

Below the word: Writing systems

大多数深度学习NLP的工作都是从语言的书面形式开始的——这是一种容易处理的、现成的数据

但是人类语言书写系统不是一回事!各种语言的字符是不同的!

在这里插入图片描述

Purely character-level models

Purely character-level NMT models

  • 以字符作为输入和输出的机器翻译系统
  • 最初,效果不令人满意 (Vilaret al., 2007; Neubiget al., 2013)
  • 只有decoder(成功的)(JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016)
  • 然后有前景的结果
    • (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
    • (Thang Luong, Christopher Manning, ACL 2016)
    • (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)

Fully Character-Level Neural Machine Translation without Explicit Segmentation

Jason Lee, KyunghyunCho, Thomas Hoffmann. 2017.

编码器结构如下图所示,而解码器是一个字符级的GRU:
在这里插入图片描述

Sub-word models: two trends

Character-Level model大体可以分为两个趋势:一种是与word-level model相同的架构
但是使用更小的单元——word pieces,只不过是输入不同,另一种是hybrid模型,主模型使用word-level model,其他模型使用character-level model。

Byte Pair Encoding

  • 有一个目标词汇量,当你达到它的时候就停止
  • 做确定性的最长分词分割 分割只在某些先前标记器(通常MT使用的 Moses tokenizer)标识的单词中进行
  • 自动为系统添加词汇 不再是基于传统方式的 strongly “word”
  • 2016年WMT排名第第一,仍然广泛应用于2018年WMT

在这里插入图片描述在这里插入图片描述

Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. 2015

  • 一个更复杂/精密的方法
  • 动机
    • 派生一个强大的、健壮的语言模型,该模型在多种语言中都有效
    • 编码子单词关联性:eventful, eventfully, uneventful…
    • 解决现有模型的罕见字问题
    • 用更少的参数获得可比较的表达性
      模型结构如下:
      在这里插入图片描述
      在这里插入图片描述

Hybrid NMT

  • Abest-of-both-worlds architecture
    • 翻译大部分是单词级别的
    • 只在需要的时候进入字符级别
  • 使用一个复制机制,试图填充罕见的单词,产生了超过 2 BLEU的改进

结构如下图所示:
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JimmyTotoro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值