CS224n笔记——Subword Model（十二）

最新推荐文章于 2024-07-25 12:03:04 发布

清崎教练

最新推荐文章于 2024-07-25 12:03:04 发布

阅读量228

点赞数

分类专栏： NLP CS224n 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bosszhao20190517/article/details/107028234

版权

系列文章

Lecture 1: Introduction and Word
Lecture 2: Word Vectors and Word Senses
Lecture 12: Subword Model

目录

1. word-level Model

基于词级的模型，例如Word2Vec，是利用word embedding的方法来得到每一个word的vec，这种方法需要去处理巨大的，开放的词汇表。

但存在一些问题：

容易出现单词不存在于词汇库中的情况，也就是 OOV(out-of-vocabulary)
非正式拼写
拼写错误
对名字和地名的音译

容易想到，利用比word更基本的组成来建立模型。

2. Character-Level Modelsel

对比word embedding，character embedding有以下几个优点：

解决OOV 问题，为不存在的词生成embedding
拼写相似的单词具有相似的 embedding；

有些令人惊讶的是，传统上，音素/字母不是一个语义单元，但在DL模型中却是。

缺点：相比于 word-level , Character-level 的输入句子变长，使得数据变得稀疏，而且对于远距离的依赖难以学到，训练速度降低；

由于这种缺点，对于纯字符级的NMT（神经网络机器翻译模型）来说，最开始表现不佳。但是在2015年之后，逐渐由研究者取得了一些成绩。

比如luong和Manining测试了一个纯字符级的seq2seq（LSTM）NMT系统作为baseline，它和基于word level的模型一样运行的很好，但是在训练时非常耗费时间。下图来是该系统的BLEU（暂未学习）评分：

对于上述缺点，解决实例：
2017年，Jason Lee等人开发出一种（无显式分割的全字符级神经机器翻译）Fully Character-Level Neural

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CS224n笔记——Subword Model（十二）

系列文章Lecture 1: Introduction and Word Lecture 2: Word Vectors and Word Senses目录1. word-level Model2. Character-Level Modelsel3. Sub-word model4. FastText embeddings1. word-level Model基于词级的模型，例如Word2Vec，是利用word embedding的方法来得到每一个word的vec，这种方法需要去处理巨大的，.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。