NLP笔记 CS224n （6） —— RNN 和 Language Model

最新推荐文章于 2022-05-05 11:46:10 发布

是不是测评机针对我

最新推荐文章于 2022-05-05 11:46:10 发布

阅读量182

点赞数

分类专栏： NLP machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42778110/article/details/107166665

版权

本文介绍了如何使用RNN解决语言模型问题，对比了n-gram和神经网络语言模型的优缺点，并阐述了RNN如何处理序列信息，以及其在长序列中的挑战和解决方案。

摘要由CSDN通过智能技术生成

传送门

笔者在总结时跳过了第3，4，5节课。其中第3，4节课分别介绍了神经网络和反向传播，笔者假定读者有着基本的机器学习和神经网络相关的知识，所以掠过了这两章内容。其中第5节课介绍了语法结构，但是因为与笔者目前方向不一致，故略去。

本节为第6节课，介绍了Language Model并且以此为契机引入了RNN模型。

Language Model 语言模型

天气预报说今天下雨，所以出门要________

语言模型要做的事情，就是给出一段文字，由模型生成其后的内容。语言模型是NLP领域内一个bench mark的问题。

n-gram Language Model

假设一段文字给出了前 $n$ 个词 $x^{(1)},x^{(2)},...,x^{(n)}$ ，要生成的词为 $x^{(n+1)}$ 的概率为

$P(x^{(n+1)}|x^{(1)},x^{(2)},...,x^{(n)})$

如果可以计算出这个分布，就可以得到一个已知上文生成下文的概率分布，从而通过选取概率最大的结果来实现生成操作。改变 $n$ 的值，即可改变上文窗口的大小，对模型做出调整。那么可以直接暴力遍历整个语料库，并且计算概率，结果保存在一个巨大的概率矩阵中。

这种做法类似于一个马尔可夫模型，其中每个节点为n个前后相继的词，也就是说其状态空间为 $X|)^{n}$ ，其中 $∣ X ∣$ 为词汇集的大小。然后暴力枚举语料库，并且人工标注每个转移发生的概率，需要注意的是，可能发生的转移只有 $\{a,b,...,c\}\rightarrow\{b,...,c,d\}$

这种做法有着如下致命缺陷：

只能有几个上文与之相关，其余信息都被抛弃，如上文的例子，如果n过小的话则无法获取下雨的信息，则难以猜出这个词应该是伞。
存储容量巨大，上述的概率要完全存储需要存储 $X|)^{n+1}$

最低0.47元/天解锁文章

是不是测评机针对我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP笔记 CS224n （6） —— RNN 和 Language Model

传送门笔者在总结时跳过了第3，4，5节课。其中第3，4节课分别介绍了神经网络和反向传播，笔者假定读者有着基本的机器学习和神经网络相关的知识，所以掠过了这两章内容。其中第5节课介绍了语法结构，但是因为与笔者目前方向不一致，故略去。本节为第6节课，介绍了Language Model并且以此为契机引入了RNN模型。Language Model 语言模型天气预报说今天下雨，所以出门要________语言模型要做的事情，就是给出一段文字，由模型生成其后的内容。语言模型是NLP领域内一个bench mark
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。