【深度学习与神经网络】【四】学习笔记

本文详细介绍了文本预处理的关键步骤,包括字符串切分、词元映射、独热编码,以及如何解决训练样本长度不一的问题。探讨了词嵌入、RNN(如GRU和LSTM)在序列模型中的应用,特别提及了RNN的遗忘问题和门控机制。最后提到LSTM的结构和参数量对比RNN的显著性。
摘要由CSDN通过智能技术生成

文本预处理

一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将解析文本的常见预处理步骤。 这些步骤通常包括:
1.将文本作为字符串加载到内存中。
2.将字符串切分为词元(如单词和字符)。
3.建立一个字典,将拆分的词元映射到数字索引。
4.将文本转换为数字索引序列(独热编码),方便模型操作。

训练样本长度不同

解决:做剪切或填充

词嵌入(word embedding)

将独热向量映射为低维向量
在这里插入图片描述
原始向量:v维;映射后:d维,d≪v;映射矩阵:d×v,根据训练数据学习得到

RNN模型

构建序列模型

在这里插入图片描述
文本处理中:输入维度不定(可能一直有单词输入);输出维度不定或者是1(直接最终理解结果)

用RNN建模序列数据

在这里插入图片描述
若为情感分类等单一输出:
在这里插入图片描述

在这里插入图片描述
皆可
存在问题:随着输入的增加,会产生“遗忘问题”

RNN反向传播

在这里插入图片描述
ht既依赖ht-1,又依赖wh,其中ht-1的计算也依赖wh,因此链式法则如下:
在这里插入图片描述
使用下面的公式移除上页中的循环计算:
在这里插入图片描述
截断时间步:可以在在这里插入图片描述步后截断上页式中的求和计算。

门控循环单元(GRU)

两个机制:
关注机制:更新门
遗忘机制:重置门

基本结构

在这里插入图片描述
在这里插入图片描述

候选隐藏状态

在这里插入图片描述

隐状态

在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述

长短期记忆网络(LSTM)

网络结构

在这里插入图片描述

遗忘门

在这里插入图片描述
值为0:什么都记不住(0通过)
值为1:全记住(全部通过)
在这里插入图片描述
在这里插入图片描述

输入门

在这里插入图片描述
在这里插入图片描述

传送带更新值

在这里插入图片描述

输出门

在这里插入图片描述

状态更新

在这里插入图片描述

参数量

是RNN的4倍
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值