动手学深度学习PyTorch版 | （2）文本预处理；语言模型；循环神经网络基础

最新推荐文章于 2024-07-12 16:16:27 发布

乌啦啦呜啦啦呜啦呜啦啦

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量222

点赞数

分类专栏： PyTorch 文章标签： python 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MissingDi/article/details/104318173

版权

PyTorch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

1.读入文本
2.分词
3.建立字典，将每个词映射到一个唯一的索引（index）
4.将文本从词的序列转换为索引的序列，方便输入模型

语言模型

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TT的词的序列w1,w2,…,wTw1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：
P(w1,w2,…,wT).P(w1,w2,…,wT).本节我们介绍基于统计的语言模型，主要是nn元语法（nn-gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。
假设序列w1,w2,…,wTw1,w2,…,wT
中的每个词是依次生成的，我们有
在这里插入图片描述

例如，一段含有4个词的文本序列的概率
在这里插入图片描述

语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库，如维基百科的所有条目，词的概率可以通过该词在训练数据集中的相对词频来计算，例如，w1w1

的概率可以计算为：
在这里插入图片描述

其中n(w1)n(w1)为语料库中以w1w1作为第一个词的文本的数量，nn
为语料库中文本的总数量。类似的，给定w1w1情况下，w2w2的条件概率可以计算为：
在这里插入图片描述

其中n(w1,w2)为语料库中以w1作为第一个词，w2作为第二个词的文本的数量。

循环神经网络基础

我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量HH，用HtHt表示HH在时间步tt的值。HtHt的计算基于XtXt和Ht−1Ht−1，可以认为HtHt记录了到当前字符为止的序列信息，利用HtHt对序列的下一个字符进行预测。
循环神经网络的构造¶我们先看循环神经网络的具体构造。假设Xt∈Rn×d是时间步t的小批量输入，Ht∈Rn×h是该时间步的隐藏变量，则：
在这里插入图片描述
性激活函数。由于引入了Ht−1Whh，Ht能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。由于Ht的计算基于Ht−1，上式的计算是循环的，使用循环计算的网络即循环神经网络（recurrent neural network）。
在时间步tt

，输出层的输出为：
在这里插入图片描述

乌啦啦呜啦啦呜啦呜啦啦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习PyTorch版 | （2）文本预处理；语言模型；循环神经网络基础

文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：1.读入文本2.分词3.建立字典，将每个词映射到一个唯一的索引（index）4.将文本从词的序列转换为索引的序列，方便输入模型语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TT的词的序列w1,w2,…,wTw1,w2,…,wT，语言模型的目...
复制链接

扫一扫

专栏目录

乌啦啦呜啦啦呜啦呜啦啦

博客等级

码龄6年

33
原创

55
点赞

254
收藏

46
粉丝

关注

私信

热门文章

分类专栏

最新评论

Linux 学习笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
数据结构与算法 python--第五节排序（二）选择排序
乌啦啦呜啦啦呜啦呜啦啦回复 weixin_44832425: 你好是这样的，内层循环找出最小元素的索引为min_index，然后把此索引对应的元素和i索引对应的元素进行交换。比如i=0时，min_index是从剩下的元素中找到的最小元素的索引，经过11行处理，这两个元素对调，那么最小的元素就在数组第一个位置上了；以此类推
数据结构与算法 python--第五节排序（二）选择排序
weixin_44832425: 您好请问第11行那个赋值是怎么回事没太看懂能解释一下吗谢谢
数据结构与算法 python--第五节排序（一）冒泡排序
会撸代码的懒羊羊: 哈哈，同道中人，给你点点关注
数据结构与算法 python--第五节排序（二）选择排序
乌啦啦呜啦啦呜啦呜啦啦回复会撸代码的懒羊羊: 哈哈谢谢鼓励你也加油喔

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。