RNN的简单理解

最新推荐文章于 2024-08-05 11:15:19 发布

_well_s

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量1.9k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u011987514/article/details/75669538

版权

本文介绍了一个使用RNN进行二进制序列预测的问题，其中输入序列X与输出序列Y之间存在特定时间步的依赖关系。通过计算交叉熵评估RNN是否学习到这些依赖，并详细解释了模型的内部工作原理，包括状态转移和输出计算。文章还讨论了不同学习情况下的交叉熵期望值，并展示了如何将模型转化为TensorFlow API的实现。

摘要由CSDN通过智能技术生成

Part 1

在本文中，我们会构造一个RNN接受一个二进制的X序列输入，来预测一个二进制序列Y输出。序列按如下方式构造:

输入序列X ：在时间步t, Xt有一半的几率为0，另一半几率为1，X可能是[1,0,0,1,1,...].

输出序列Y : 在时间步t,Yt有50%的几率为0，另一半几率为1。

如果X(t-3)是1，那么Yt为1的几率增加50%；
如果X(t-8)是1，那么Yt为1的几率减少25%;
如果X(t-3)和X(t-8)同时为1，那么Y(t)为1的几率是50%+50%-25%=75%.

因此，数据中存在两个依赖:t-3和t-8。

可以通过计算出交叉熵，来判断RNN是否学习到了这两个依赖。

如果没有学习到依赖性，那么有62.5%的几率为1，交叉熵应该是0.66.
如果仅仅学习到了t-3的依赖，交叉熵应该是0.52
如果两个依赖都学习到了，交叉熵应该是0.45

下面是计算公式：

import numpy as np

print("Expected cross entropy loss if the model:")
print("- learns neither dependency:", -(0.625 * np.log(0.625) +
                                      0.375 * np.log(0.375)))
# Learns first dependency only ==> 0.51916669970720941
print("- learns first dependency:  ",
      -0.5 * (0.875 * np.log(0.875) + 0.125 * np.log(0.125))
      -0.5 * (0.625 * np.log(0.625) + 0.375 * np.log(0.375)))
print("- learns both dependencies: ", -0.50 * (0.75 * np.log(0.75) + 0.25 * np.log(0.25))
      - 0.25 * (2 * 0.50 * np.log (0.50)) - 0.25 * (0))

Expected cross entropy loss if the model:
- learns neither dependency: 0.661563238158
- learns first dependency:   0.519166699707
- learns both dependencies:  0.454454367449

这个模型会越简单越好，在时间步t ,模型接受一个二进制的输出序列Xt向量和一个前步的状态向量St-1,作为输入。

输出一个状态向量St, 和一个预测的概率分布向量Pt, 以拟合二进制的输出序列Yt向量。

St = tanh(W (Xt @ St-1)+ bs)

Pt = softmax(U*St + bp)

@代表向量的连接操作