CS224n笔记——Subword Model(十二)


系列文章

Lecture 1: Introduction and Word
Lecture 2: Word Vectors and Word Senses
Lecture 12: Subword Model


1. word-level Model

基于词级的模型,例如Word2Vec,是利用word embedding的方法来得到每一个word的vec,这种方法需要去处理巨大的,开放的词汇表。

但存在一些问题:

  • 容易出现单词不存在于词汇库中的情况,也就是 OOV(out-of-vocabulary)
  • 非正式拼写
  • 拼写错误
  • 对名字和地名的音译

容易想到,利用比word更基本的组成来建立模型。

2. Character-Level Modelsel

对比word embedding,character embedding有以下几个优点:

  • 解决OOV 问题,为不存在的词生成embedding
  • 拼写相似的单词具有相似的 embedding;

有些令人惊讶的是,传统上,音素/字母不是一个语义单元,但在DL模型中却是。

缺点:相比于 word-level , Character-level 的输入句子变长,使得数据变得稀疏,而且对于远距离的依赖难以学到,训练速度降低;

由于这种缺点,对于纯字符级的NMT(神经网络机器翻译模型)来说,最开始表现不佳。但是在2015年之后,逐渐由研究者取得了一些成绩。

比如luong和Manining测试了一个纯字符级的seq2seq(LSTM)NMT系统作为baseline,它和基于word level的模型一样运行的很好,但是在训练时非常耗费时间。下图来是该系统的BLEU(暂未学习)评分:

对于上述缺点,解决实例:
2017年,Jason Lee等人开发出一种(无显式分割的全字符级神经机器翻译)Fully Character-Level Neural

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值