自然语言处理 cs224n 2019 Lecture 12: Information from parts of words: Subword Models课程笔记

最新推荐文章于 2020-12-19 17:43:22 发布

努力努力再努力_越努力越幸运

最新推荐文章于 2020-12-19 17:43:22 发布

阅读量316

点赞数

分类专栏： NLP自然语言处理文章标签： cs224n nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33908388/article/details/96693209

版权

NLP自然语言处理专栏收录该内容

21 篇文章 2 订阅

订阅专栏

课程内容

语言学的一点小知识
纯粹的字符级别的模型
子单词模型：Byte Pair Encoding and friends
Hybrid character 和单词级的模型
fastText

(这节课也没怎么听懂，以后要边听边做笔记了)

一、人类语言声音：语音学和音系学

语音学是音流，这是属于物理层面的东西

词法学：一个n-grams的代替方案

在基于单词的模型中存在一些问题：

需要处理很大的词汇表，在英语中单词只要变个形态就是另一个单词了，比如说：gooooood bye

字符级别模型

单词嵌入可以由字符嵌入表示：

能为不知道的单词生成嵌入
相似的拼写有相似的嵌入
解决了oov问题

传统来说，一个因素或者一个字母不是一个因素单元，但是深度语言模型把它们组合在一起了。

单词之下的书写系统

大部分深度学习的任务都是从语言的书写形式来处理语言的，这是一个简单的过程，需要寻找数据。

纯粹的字符级别的模型

刚开始效果并不好
后来只有解码器使用
然后变成了有前景的结果

3、子单词模型：两个趋势

和单词级别的模型有相同的架构

但是使用了更少的词单元：“词块”

Hybrid architectures:主要的模型含有单词，一些其他的含有字符

字节对的编码

使用的是一个压缩算法：将大部分频繁出现的字节对标记为新的字节对。

有一个目标词汇量，当你达到时就停止
确定最长段的单词分割
分割的单词是由之前的标记器标记的
不再有传统意义上的单词出现

词块、句子块模型：

谷歌使用的模型

比起使用n-gram模型，使用一个贪心算法最大化语言模型的对数可能性来选择块

最大化的增加n-gram来减少复杂度

词块模型标记内部单词，句子块模型根据原始文本工作。

四、字符级别去构建单词级别的

字符的卷积来生成词嵌入
使用pos标记固定的窗口

五、FastText embeddings

使用n-grams和整个单词来代表单词

，

然后把它们加起来：

努力努力再努力_越努力越幸运

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。