深度学习——语言模型（笔记）

最新推荐文章于 2024-05-29 08:20:54 发布

小奶糕的笔记本

最新推荐文章于 2024-05-29 08:20:54 发布

阅读量851

点赞数

分类专栏：深度学习文章标签：深度学习语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jbkjhji/article/details/128599339

版权

深度学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

语言模型：NLP经典的模型

1.语言模型

①长度为T的文本序列中词元依次是x1,…,xT，xT被认为是文本序列在时间t处的观测或标签。在给定文本序列，语言模型的目标是估计序列的联合概率p(x1,…,xT)

②序列模型的核心是整个序列文本所出现的概率

应用：

①做预训练模型（BERT,GPT-3）:给定大量的文本做预训练，然后训练模型预测整个文本出现的概率，能够得到较多的训练数据来做较大的模型

②生成文本，给定前面几个词，预测后续的文本。但是对模型要求比较高，否则产生误差不断积累。

③判断哪个序列比较常见，使用常见的语言模型判断哪一个序列出现的概率高

2.使用计数来建模——语言模型可以使用计数进行建模

①假设序列长度为2

n:总词数，采集的所有样本，n(x)单个x单词出现的次数，n(x,x`)是连续单词对出现的次数

②序列长度为3

3.N元语法

①当序列很长时，因为文本量不够大，很可能n(x1,…,xT)<=1

②使用马尔可夫假设解决这个问题

Ⅰ一元语法

tau=0,计算xt的概率时，不用考虑xt之前的数据，认为每个词是独立的。

Ⅱ二元语法

tau=1,每次计算xt的概率时，只依赖于x（t-1），每个词和前面一个词是相关的

Ⅲ三元语法

tau=2, 每次计算xt的概率时，只依赖于x（t-1）和x（t-2），每个词和前面两个词是相关的

③对于N元语法来说，子序列的长度是固定的。N越大，对应的以来关系越长，精度高，但是时间复杂度大

④二元语法，三元语法比较常见

4.N元语法的优点：

①最大的优点是处理比较长的序列。序列很长复杂度是指数级别的

②任意长度的序列，N元语法扫描的子序列长度是固定的。对于二元语法说，每次看长为2的子序列首先将长度为 2 的组成任何一个词 n(x1,x2)的总数存下来，n(x1)出现的概率存起来，把n存起来。

③马尔可夫假设的N元语法的好处是，将词存起来。计算的复杂度O（T）而不是O（N）。查询一个任意长度的序列的时间复杂度为　ｏ（Ｔ），Ｔ　是序列长度。N越大精度越高。随着N增大，空间复杂度增大。二元，三元语法比较常见。

【总结】

①语言模型估计文本序列的联合概率

②使用统计方法时采用n元语法

小奶糕的笔记本

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习——语言模型（笔记）

②任意长度的序列，N元语法扫描的子序列长度是固定的。对于二元语法说，每次看长为2的子序列首先将长度为 2 的组成任何一个词 n(x1,x2)的总数存下来，n(x1)出现的概率存起来，把n存起来。①做预训练模型（BERT,GPT-3）:给定大量的文本做预训练，然后训练模型预测整个文本出现的概率，能够得到较多的训练数据来做较大的模型。n:总词数，采集的所有样本，n(x)单个x单词出现的次数，n(x,x`)是连续单词对出现的次数。tau=0,计算xt的概率时，不用考虑xt之前的数据，认为每个词是独立的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。