Task 3: Subword Models

最新推荐文章于 2024-02-17 15:52:28 发布

小孟Tec

最新推荐文章于 2024-02-17 15:52:28 发布

阅读量235

点赞数

分类专栏： CS224N -- 斯坦福自然语言处理课程笔记

本文链接：https://blog.csdn.net/m0_38024592/article/details/107051220

版权

CS224N -- 斯坦福自然语言处理课程笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1.人类语言的声音：语音和语音学

语音是声音流–毫无争议的“物理”
语音学假设一小部分或几组独特的类别单元：音素或独特特征
也许是普遍的类型学，但特定语言的实现
类别感知的最佳证据来自语音学
- 音素内差异缩小；音素间放大

形态：词的一部分

传统上，我们把语素作为最小的语义单元
[[un [[fortun（e）] ROOT ate] STEM] STEM ly] WORD
深度学习：形态学研究很少；
一次尝试递归神经网络是（Luong，Socher，＆Manning 2013）

<一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式（或数字）>

形态学

一个简单的替代方法是使用字符n-gram
Wickelphones（Rumelhart＆McClelland 1986）
微软的DSSM（Huang，He，Gao，Deng，Acero和Hect 2013）
有关使用卷积层的想法
可以更轻松地提供语素的许多好处吗？

书写系统中的单词

写作系统在表达单词的方式上有所不同-或不

没有分词例：美国关岛国际机场及其办公室均接获
单词（主要）分为：This is a sentence with words
- 批评家？
  - 分开的 Je vous ai apporté des bonbons
  - 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
- 化合物？
  - 分开的 life insurance company employee
  - 已加入 Lebensversicherungsgesellschaftsangestellter

单词级别下的模型

需要处理 large,openvocabulary
- 丰富的形态：nejneobhospodařovávatelnějšímu
  (“to the worst farmable one”)
- 音译：Christopher Kryštof
- 非正式拼写：

字符级别下的模型

1.单词嵌入可以由字符嵌入组成

为未知单词生成嵌入
相似的拼写共享相似的嵌入
解决OOV问题

2.可以将连接的语言当作字符来处理两种方法都已证明非常成功！

令人惊讶的是-传统上，音素/字母不是语义单位-但是DL模型组成了组

文字下方：书写系统

大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据
但是人类语言写作系统不是一回事！


音位（也许有字）	jiyawu ngabulu	Wambaya
僵化音素	thorough failure	English
音节/摩拉	ᑐᖑᔪᐊᖓᔪᖅ	Inuktitut
表意文字（音节符号）	去年太空船二号坠毁	Chinese
结合以上	インド洋の島	Japanese

2. 纯字符级模型

Wesawone很好的例子，用于句子分类的字符级模型
非常深的卷积网络用于文本分类
Conneau，Schwenk，Lecun，Barrault,EACL 2017
通过深度卷积堆栈获得强大结果

纯字符级NMT模型

-最初表现不理想•（Vilar等，2007； Neubig等，2013）

仅解码器
（钟俊英，赵庆gh，Yoshua Bengio。arXiv
2016）。
有希望的结果
（Wang Ling，Isabel Trancoso，Chris Dyer，Alan Black，arXiv 2015）
（Thang Luong，Christopher Manning，ACL 2016）
（Marta R.Costa-Jussà，JoséA. R. Fonollosa，ACL 2016）

英语-捷克语WMT 2015成绩

LuongandManning测试了基准基线纯字符级seq2seq（LSTM）NMT系统
针对关键字级别的基准进行了有效处理
Butitwasssllooooww
- 3个星期的训练...在运行时不是那么快

英语-捷克语WMT 2015示例

无需显式细分的全字符级神经机器翻译

Jason Lee，Kyunghyun Cho，Thomas Hoffmann。 2017.编码器如下；解码器是字符级GRU

在LSTM seq2seq模型中具有深度的更强字符结果

回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry，Foster，Bapna，Firat，Macherey，Google AI

3. 子词模型：两种趋势

与词级模型相同的体系结构：
但是使用较小的单位：“单词”
[Sennrich，Haddow，Birch，ACL’16a]，[Chung，Cho，Bengio，ACL’16]。
混合架构：
主模型有文字；角色的其他东西
[Costa-Jussà＆Fonollosa，ACL’16]，[Luong＆Manning，ACL’16]。

字节对编码

最初是压缩算法：
- 最频繁的字节对一个新字节。

Rico Sennrich，Barry Haddow和Alexandra Birch。具有子词单位的稀有词的神经机器翻译。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus

分词算法：
虽然是自底向上的聚类
以数据中所有（Unicode）字符的字母组合词表开头
最常见的ngram对一个新的ngram

分词算法：
从字符词汇开始
最常见的ngram对一个新的ngram
↓

↓

达到目标词汇量大小并在您到达时停止
确定性最长的单词分段
使用某些先前的标记器（通常是用于MT的Moses标记器）识别的单词进行细分
自动决定vocabforsystem
- 不再以传统方式强烈“用词”
  https://github.com/rsennrich/nematus

字词/句子模型

GoogleNMT（GNMT）使用以下版本
- V1：字词模型
- V2：句子模型
Ratherthancharn-gramcount，使用贪婪近似来最大化语言模型的对数可能性以选择片段
- 添加最大程度减少困惑的n-gram
单词模型对内单词进行标记
句子模型来自原始文本
- 空格保留为特殊标记（_）并正常分组
- 您可以通过连接片段并将它们重新编码为空格来结束事物
- https://github.com/google/sentencepiece
- https://arxiv.org/pdf/1804.10959.pdf
BERT使用字词模型的变体
（相对）常用词在词汇表中：
- 1910年代，费尔法克斯
其他单词是由单词构成的：
- hypatia = h ## yp ## ati ## a
  如果您以其他方式使用BERT
  基于模型，您必须处理