task2 学习笔记文本预处理；语言模型；循环神经网络基础

最新推荐文章于 2024-07-12 16:21:48 发布

Thor1

最新推荐文章于 2024-07-12 16:21:48 发布

阅读量202

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/Thor1/article/details/104318202

版权

深度学习文本语言处理
1.文本预处理
文本是一类序列数据，一篇文章可以看作是字符或单词的序列预处理通常包括四个步骤：
1.读入文本
2.分词
3.建立字典，将每个词映射到一个唯一的索引（index）
4.将文本从词的序列转换为索引的序列，方便输入模型

其中：
建立词典：词典的主要作用是将每一个词映射到一个唯一的索引号，主要构建了一个idx_to_token列表来存储所有的词，一个token_to_idx来存储所有词的索引。
在实现的的流程上是：
1.对语料进行分词，生成一个token列表，里面包含了语料的分词结果
2.对分好的词统计词频，然后根据词频来构建词典（统计好的词频完成了去重的操作，同时也保留了词的频率，方便后续的操作）

有一些现有的工具可以很好地进行分词如spaCy和NLTK。

2.传统的n-gram模型

一些应用
2.随机采样和相邻采样
在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻。

3.循环神经网络基础（摘抄）
理解
模型参数
W_xh: 状态-输入权重
W_hh: 状态-状态权重
W_hq: 状态-输出权重
b_h: 隐藏层的偏置
b_q: 输出层的偏置
循环神经网络的参数就是上述的三个权重和两个偏置，并且在沿着时间训练（参数的更新），参数的数量没有发生变化，仅仅是上述的参数的值在更新。循环神经网络可以看作是沿着时间维度上的权值共享
在卷积神经网络中，一个卷积核通过在特征图上滑动进行卷积，是空间维度的权值共享。在卷积神经网络中通过控制特征图的数量来控制每一层模型的复杂度，而循环神经网络是通过控制W_xh和W_hh中h的维度来控制模型的复杂度。
一个batch的数据的表示
如何将一个batch的数据转换成时间步数个（批量大小，词典大小）的矩阵？
每个字符都是一个词典大小的向量，每个样本是时间步数个序列，每个batch是批量大小个样本
第一个(批量大小，词典大小)的矩阵：取出一个批量样本中每个序列的第一个字符，并将每个字符展开成词典大小的向量，就形成了第一个时间步所表示的矩阵
第二个(批量大小，词典大小)的矩阵：取出一个批量样本中每个序列的第二个字符，并将每个字符展开成词典大小的向量，就形成了第二个时间步所表示的矩阵
最后就形成了时间步个(批量大小，词典大小)的矩阵，这也就是每个batch最后的形式
隐藏状态的初始化
随机采样时：每次迭代都需要重新初始化隐藏状态（每个epoch有很多词迭代，每次迭代都需要进行初始化，因为对于随机采样的样本中只有一个批量内的数据是连续的）
相邻采样时：如果是相邻采样，则说明前后两个batch的数据是连续的，所以在训练每个batch的时候只需要更新一次（也就是说模型在一个epoch中的迭代不需要重新初始化隐藏状态）

detach()问题
当我们再训练网络的时候可能希望保持一部分的网络参数不变，只对其中一部分的参数进行调整；或者值训练部分分支网络，并不让其梯度对主网络的梯度造成影响，这时候我们就需要使用detach()函数来切断一些分支的反向传播
detach():
返回一个新的Variable，从当前计算图中分离下来的，但是仍指向原变量的存放位置,不同之处只是requires_grad为false，得到的这个Variable永远不需要计算其梯度，不具有grad。
即使之后重新将它的requires_grad置为true,它也不会具有梯度grad
.这样我们就会继续使用这个新的Variable进行计算，后面当我们进行反向传播时，到该调用detach()的Variable就会停止，不能再继续向前进行传播
detach_()
将一个Variable从创建它的图中分离，并把它设置成叶子variable
.其实就相当于变量之间的关系本来是x -> m -> y,这里的叶子variable是x，但是这个时候对m进行了.detach_()操作,其实就是进行了两个操作：

1.将m的grad_fn的值设置为None,这样m就不会再与前一个节点x关联，这里的关系就会变成x, m -> y,此时的m就变成了叶子结点。
2.然后会将m的requires_grad设置为False，这样对y进行backward()时就不会求m的梯度。

其实detach()和detach_()很像，两个的区别就是detach_()是对本身的更改，detach()则是生成了一个新的variable
。比如x -> m -> y中如果对m进行detach()，后面如果反悔想还是对原来的计算图进行操作还是可以的
。但是如果是进行了detach_()，那么原来的计算图也发生了变化，就不能反悔了。

————————————————
版权声明：本文为CSDN博主「jhb1021821368」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/jhb1021821368/article/details/104317682

Thor1

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
task2 学习笔记文本预处理；语言模型；循环神经网络基础

深度学习文本语言处理1.文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列预处理通常包括四个步骤：1.读入文本2.分词3.建立字典，将每个词映射到一个唯一的索引（index）4.将文本从词的序列转换为索引的序列，方便输入模型其中：建立词典：词典的主要作用是将每一个词映射到一个唯一的索引号，主要构建了一个idx_to_token列表来存储所有的词，一个token_to_...
复制链接

扫一扫