神经网络（六）循环神经网络

最新推荐文章于 2024-07-30 09:32:13 发布

ViperL1

最新推荐文章于 2024-07-30 09:32:13 发布

阅读量1.9k

收藏 10

点赞数 1

分类专栏：神经网络学习笔记文章标签： java servlet 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37878740/article/details/126460644

版权

学习笔记同时被 2 个专栏收录

155 篇文章 14 订阅

订阅专栏

神经网络

72 篇文章 16 订阅

订阅专栏

一、增加记忆功能

1.可计算问题

其中函数不涉及记忆问题，可以使用前馈神经网络计算

但是图灵机涉及记忆问题，需要为神经网络增加记忆能力

2.如何增加记忆能力

①时延神经网络

额外增加一个延时单元（用以存储网络的历史信息<输入、输出、隐状态等>）

②自回归模型

用变量yt的历史信息来预测自己

③有外部输入的非线性自回归模型

f(.)为非线性函数，可以是前馈网络。Kx和Ky为超参数

二、循环神经网络

循环神经网络的神经元自带反馈，可以处理任意长度的时序数据。

循环神经网络比前馈神经网络更符合神生物经网络的结构，被广泛应用在语音设备、预言模型、及自然语言生成等任务。

将循环神经网络按时间展开

其在时间维上极深，同样存在梯度消失问题。在非时间维上较浅，需要适度增加其模型复杂度。

1.简单循环神经网络

一个完全连接的循环网络是任何非线性动力系统的近似器。

循环神经网络通用近似定理

$s_t=g(s_{t-1},x)$ $y_t=o(s_t)$

St为每个时刻的隐藏状态，xt为外部输入，g(.)为状态转换函数，O(.)为连续输出函数

图灵完备

可以实现图灵机的所用功能（可以解决所有可以算问题），一个完全连接的循环神经网络可以近似于图灵完备

2.应用到机器学习

①序列到类别

将所有h进行平均/求和，再送入分类器之中

②同步的序列到序列模式

例如：中文分词、信息抽取(文本中抽取信息，形成知识)、语音识别--等容易出现分歧的问题

③异步的序列到序列模式

例如：机器翻译

3.参数学习与长程依赖问题

①参数学习

以同步的序列到序列循环神经网络为例，给定一个学习样本(x,y)，长度均为T

时刻t的瞬时损失函数为： $L_t=L(y_t,g(h_t))$ $g(h_t)$ 为后验概率

总损失函数： $L=\sum_{t=1}^TL_t$

计算梯度： $Z_t=Uh_{t-1}+Wx_t+b$ $h_t=f(z_t)$

$\frac{\partial L}{\partial U}=\sum_{t=1}^T \frac{\partial L_t}{\partial U} =\sum_{k=1}^t\frac{\partial L_t}{\partial z_k}h^T_{k-1} =\sum_{k=1}^t \delta _t,h^T_{k-1}$

$\delta_{t,k}$ 为第t时刻的损失对第k步隐藏神经元的净输入 $Z_k$ 的导数

$\delta_{t,k}=diag({f}'(z_k))U^T\delta _{t,k+1}$

tips:diag(x,n)：矩阵x上的第n条对角线上的元素

随时间的反向传播算法(BPTT)

$\frac{\partial L_t}{\partial U}=\sum_{k=1}^t \delta_{t,k}h^T_{k-1}$

$\delta_{t,k}=diag({f}'(z_k))U^T\delta _{t,k+1}=\prod _{\tau =k}^{t-1}(diag({f}'(z_\tau)))\delta_{t,t}\approx \gamma ^{t-k}\delta _{t,t}$

$\approx \gamma ^{t-k}\delta _{t,t}$

②长程依赖问题

当 $\gamma>1$ 且 $t-k\rightarrow \infty$ , $\delta _t,k\rightarrow \infty$ 时会出现梯度爆炸问题

当 $\gamma<1$ 且 $t-k\rightarrow \infty$ , $\delta _t,k\rightarrow \infty$ 时会出现梯度消失问题

梯度爆炸和梯度消失统称为长程依赖问题，由于此问题，实际上只能学习到短周期的依赖关系。

原因是循环神经网络在时间维度上非常深

1.修正梯度爆炸问题

权重衰减、梯度截断

2.修正梯度消失问题

改进模型，使 $h_t$ 与 $h_{t-1}$ 之间的线性关系移动到 $g(x_t;\theta)$ 上

改进方法①：令梯度 $\gamma=1$

将循环边改为线性依赖关系： $h_t=h_{t-1}+g(x_t;\theta)$ 会削弱非线性性能

其中 $g(x_t;\theta)=g(wx_t+b)$

增加非线性： $h_t=h_{t-1}+g(x_t,h_{t-1};\theta)$

其中 $g(x_t,h_{t-1};\theta)=\delta(uh_{x-1}+wx_t+b)$

4.常见的循环神经网络

门控机制：控制信息积累的速度。（选择性的加入新的信息，选择性遗忘）

①GRU（门控循环单元）

$h_t=z_t\bigodot h_{t-1}+(1-z_t)\bigodot g(x_t,h_{t-1};\theta)$

更新门 $z_t$ ,值域为[0,1]，用于选择性遗忘。 $z_t=\sigma(w_zx_t+U_zh_{t-1}+b_z)$

$g(x_t,h_{t-1};\theta)=\hat{h_t}$ ，使用tanh实现 $\hat{h_t}=tanh(W_hx_t+U_h(h_{t-1})+b_h)$

改进 $\hat{h_t}$ ,使 $h_t$ 仅与 $x_t$ 相关（去除与 $h_{t-1}$ 的联系）

重置门 $r_t$ ，

$r_t=\sigma(W_rx_t+U_rh_{t-1}+b_r)$ , $\hat{h_t}=tanh(W_hx_t+U_h(r_t\bigodot h_{t-1})+b_h)$

门控循环单元

②LSTM（长短期记忆网络）

引入内部记忆单元 $c_{t-1}$ 用于记忆，解放 $h_t$ ,使其可以更好的进行非线性拟合

$i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)$ $f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)$

$o_t=\sigma(w_ox_t+U_oh_{t-1}+b_o)$

!!! 可以使得 $ht=o_t\bigodot tanh(c_t)$

各种变体

5.深层循环神经网络

①堆叠循环神经网络

②双向循环神经网络

三、小结

优点：引入记忆功能、图灵完备

缺点：长程依赖问题、记忆容量问题、并行能力问题

四、将循环神经网络扩展到图

序列是最简单的数据结构，更复杂的结构还有树和图

1.递归神经网络

用于处理树结构。

在一个有向无循环图共享一个组合函数

2.图网络

用于处理图结构。

更新序列：先更新点、再更新边、最后更新全局结点

对于任意图结构G(V,E)

更新函数： $m_t^{(v)}=\sum_{u \in N(v)}f(h^{(v)}_{t-1},h^{(u)}_{t-1},e^{(u,v)})$ $h_t^{(v)}=g(h^{(v)}_{t-1},m_t^{(v)}))$

读出函数： $y_t=g(h_T|v \in V)$

ViperL1

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ViperL1 CSDN认证博客专家 CSDN认证企业博客

码龄8年

暂无认证

247: 原创

17万+: 周排名

1万+: 总排名

40万+: 访问

: 等级

3416: 积分

1112: 粉丝

489: 获赞

139: 评论

2208: 收藏

私信

关注

热门文章

分类专栏

最新评论

NPOI高速写入大量EXCEL数据
READLEAF: 这个需要内存足够大的场合才适用。可以一条记录一条记录地写入吗？
[高光谱]使用PyTorch的dataloader加载高光谱数据
ViperL1: 那你进到函数里做单步调试看看，我用的时候没这个问题
[高光谱]使用PyTorch的dataloader加载高光谱数据
qq_45761457: 但是我打印训练集里面非零元素个数，他出来的不是5*种类
[高光谱]使用PyTorch的dataloader加载高光谱数据
ViperL1: 因为是每类标签5个
[高光谱]使用PyTorch的dataloader加载高光谱数据
qq_45761457: train_gt, test_gt = sample_gt(gt, SAMPLE_PERCENTAGE, mode=SAMPLING_MODE) # 划分训练集和测试集SAMPLE_PERCENTAGE控制台传入 train_nonzero_count = np.count_nonzero(train_gt) print("训练集中的非零元素数量（有效标签数量）:", train_nonzero_count)为啥我选的每个样本为5，这个怎么输出5436这么大

最新文章

2024年16篇

2023年51篇

2022年84篇

2021年56篇

2020年13篇

2019年27篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值