task2 学习笔记文本预处理;语言模型;循环神经网络基础

深度学习文本语言处理
1.文本预处理
文本是一类序列数据,一篇文章可以看作是字符或单词的序列预处理通常包括四个步骤:
1.读入文本
2.分词
3.建立字典,将每个词映射到一个唯一的索引(index)
4.将文本从词的序列转换为索引的序列,方便输入模型

其中:
建立词典:词典的主要作用是将每一个词映射到一个唯一的索引号,主要构建了一个idx_to_token列表来存储所有的词,一个token_to_idx来存储所有词的索引。
在实现的的流程上是:
1.对语料进行分词,生成一个token列表,里面包含了语料的分词结果
2.对分好的词统计词频,然后根据词频来构建词典(统计好的词频完成了去重的操作,同时也保留了词的频率,方便后续的操作)

有一些现有的工具可以很好地进行分词如spaCy和NLTK。

2.传统的n-gram模型

一些应用
2.随机采样和相邻采样
在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻。

3.循环神经网络基础(摘抄)
理解
模型参数
W_xh: 状态-输入权重
W_hh: 状态-状态权重
W_hq: 状态-输出权重
b_h: 隐藏层的偏置
b_q: 输出层的偏置
循环神经网络的参数就是上述的三个权重和两个偏置,并且在沿着时间训练(参数的更新),参数的数量没有发生变化,仅仅是上述的参数的值在更新。循环神经网络可以看作是沿着时间维度上的权值共享
在卷积神经网络中,一个卷积核通过在特征图上滑动进行卷积,是空间维度的权值共享。在卷积神经网络中通过控制特征图的数量来控制每一层模型的复杂度,而循环神经网络是通过控制W_xh和W_hh中h的维度来控制模型的复杂度。
一个batch的数据的表示
如何将一个batch的数据转换成时间步数个(批量大小,词典大小)的矩阵?
每个字符都是一个词典大小的向量,每个样本是时间步数个序列,每个batch是批量大小个样本
第一个(批量大小,词典大小)的矩阵:取出一个批量样本中每个序列的第一个字符,并将每个字符展开成词典大小的向量,就形成了第一个时间步所表示的矩阵
第二个(批量大小,词典大小)的矩阵:取出一个批量样本中每个序列的第二个字符,并将每个字符展开成词典大小的向量,就形成了第二个时间步所表示的矩阵
最后就形成了时间步个(批量大小,词典大小)的矩阵,这也就是每个batch最后的形式
隐藏状态的初始化
随机采样时:每次迭代都需要重新初始化隐藏状态(每个epoch有很多词迭代,每次迭代都需要进行初始化,因为对于随机采样的样本中只有一个批量内的数据是连续的)
相邻采样时:如果是相邻采样,则说明前后两个batch的数据是连续的,所以在训练每个batch的时候只需要更新一次(也就是说模型在一个epoch中的迭代不需要重新初始化隐藏状态)

detach()问题
当我们再训练网络的时候可能希望保持一部分的网络参数不变,只对其中一部分的参数进行调整;或者值训练部分分支网络,并不让其梯度对主网络的梯度造成影响,这时候我们就需要使用detach()函数来切断一些分支的反向传播
detach():
返回一个新的Variable,从当前计算图中分离下来的,但是仍指向原变量的存放位置,不同之处只是requires_grad为false,得到的这个Variable永远不需要计算其梯度,不具有grad。
即使之后重新将它的requires_grad置为true,它也不会具有梯度grad
.这样我们就会继续使用这个新的Variable进行计算,后面当我们进行反向传播时,到该调用detach()的Variable就会停止,不能再继续向前进行传播
detach_()
将一个Variable从创建它的图中分离,并把它设置成叶子variable
.其实就相当于变量之间的关系本来是x -> m -> y,这里的叶子variable是x,但是这个时候对m进行了.detach_()操作,其实就是进行了两个操作:

1.将m的grad_fn的值设置为None,这样m就不会再与前一个节点x关联,这里的关系就会变成x, m -> y,此时的m就变成了叶子结点。
2.然后会将m的requires_grad设置为False,这样对y进行backward()时就不会求m的梯度。

其实detach()和detach_()很像,两个的区别就是detach_()是对本身的更改,detach()则是生成了一个新的variable
。比如x -> m -> y中如果对m进行detach(),后面如果反悔想还是对原来的计算图进行操作还是可以的
。但是如果是进行了detach_(),那么原来的计算图也发生了变化,就不能反悔了。

————————————————
版权声明:本文为CSDN博主「jhb1021821368」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/jhb1021821368/article/details/104317682

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
循环神经网络模型训练是通过反向传播算法来实现的。训练过程包括输入数据的前向传播和误差的反向传播两个步骤。 在前向传播过程中,循环神经网络依次处理输入序列的每个时间步,并通过记忆单元(如LSTM或GRU)传递信息。每个时间步的输入经过权重矩阵的线性变换,再通过激活函数(如tanh)进行非线性变换。这样,网络可以利用前面的输入信息进行预测,并生成输出。 在误差反向传播过程中,通过计算预测输出与实际输出之间的差异,得到损失函数。然后,根据损失函数的导数,将误差从输出层传播回网络的每个时间步,更新网络中的权重矩阵和记忆单元的参数。这样,网络可以通过反复迭代来减小预测误差,提高模型的性能。 需要注意的是,由于循环神经网络的时间序列性质,反向传播过程中会出现梯度消失或梯度爆炸的问题。为了解决这个问题,可以采用一些改进的循环神经网络结构(如LSTM和GRU)或者使用梯度裁剪等技巧。 总之,循环神经网络模型的训练过程是通过前向传播和误差反向传播来实现的,通过不断更新网络参数来减小预测误差,提升模型性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [循环神经网络(RNN)](https://blog.csdn.net/toto1297488504/article/details/113876635)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值