CS224n-Lecture12-Information from parts of words (Subword Models)

这篇博客探讨了从字和子词级别处理语言的模型,包括字符级模型、子词模型(如Byte Pair Encoding)以及混合模型。重点讨论了如何利用子词模型解决未知词汇问题,并介绍了它们在翻译任务中的应用和优势。
摘要由CSDN通过智能技术生成

(shift,图片复制转存失败问题搞不定,复制黏贴写在本地的文章是真的被恶心到了)

综述

Lecture 12: Information from parts of words: Subword Models

来自单词内部分的信息,子词模型

1. A tiny bit of linguistics (10 mins) 语言学的简单介绍

2. Purely character-level models (10 mins) 纯字级别的模型

3. Subword-models: Byte Pair Encoding and friends (20 mins) 子词模型

4. Hybrid character and word level models (30 mins) 混合字符和单词级别的模型

5. fastText (5 mins) fastText

 

1.Human language sounds

一门语言理论上应该可以从读写两个方面进行深入分析。

Phonetics and phonology

人类语言的声音:发音和音素????什么玩意

发音是指我们所听到的物理的声音流。

音素是指一个多个独特的、分类的特征。但不是所有的语言都是音素的。

传统上,我们把语素作为最小的语义单元。

于是就涉及到了Morphology的研究,回顾之前所说的关于NLP形态学的三个研究方向:

形态分析 Morphological Analysis:形态分析是用来分析词是由何种词素构成的任务。一般用于分词、词性标注当中。词素分词根、词缀、词尾等。

形态标记 Morphological Tagging:主要是在token标记的基础上进行扩展,为每个token标记额外的形态信息,比如性别、时间等,是对于形态丰富的语言重要的基础内容,并且同一个token在不同的上下文有不同的形态。

形态变化 Morphological Inflection:研究词的不同形态的变化和对应含义的任务。比如英文中复数+s/es。

 

几种研究方式:

最简单的就是n-gram,字符的各种组合。

其次是使用卷积的相关思想。

 

Words in writing systems

写作也是多种形式的,主要是分词和不分词。

 

 

Models below the word level

无论从读方面去研究,或者写方面去研究,其实都存在一定的歧义性。基于词级别的模型可以说会遇到各种挑战。最主要的是遇到大量、开放的词汇表。

 

Character-Level Models

于是人们逐渐把目光投向字级别的模型。模型主要优点如下:

1.由于是字级别模型,可以为未知单词产生嵌入、解决OOV(out of vocabulary)问题、相似拼写共享相似嵌入。

2.关联语言可以使用字级别来处理,而不是通常意义上的音素作为最小单元,并且效果出人意料的好。

但是即便如此,从书写的文本中训练字级别的模型也是比较困难的,主要是其实不同文化的字也是含义不相同的,表音、象形等等。

 

 

 

2. Purely character-level models

介绍了一些纯字级别的神经网络机器翻译模型。

 

此模型,首先是对输入的character首先做一个embedding, 然后分别与大小为3,4,5的filter进行卷积运算,就相当于3-grams, 4-grams和5-grams。之后进行max-pooling操作,相当于选出了有语义信息的segment-embedding。之后将这些embedding送入Highway Network后再通过一个单层的双向GRU,得到最终的encoder的output。之后经过一个character-level的GRU(作为decoder)得到最终结果。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值