使用TensorFlow实现RNN模型入门篇1

最新推荐文章于 2024-07-26 15:36:49 发布

liuchongee

最新推荐文章于 2024-07-26 15:36:49 发布

阅读量1.7w

点赞数 3

分类专栏：深度学习 TensorFlow 深度学习与NLP--论文笔记和TensorFlow实现

本文链接：https://blog.csdn.net/liuchonge/article/details/70809288

版权

这篇博客介绍如何使用TensorFlow构建简单的RNN模型，通过二进制序列数据来理解RNN的工作原理。作者首先生成和预处理数据，接着构建单层RNN模型，并进行训练。实验结果显示模型成功学习到序列中的依赖关系。最后提出了代码优化的建议，包括使用动态RNN和简化rnn_cell定义。

摘要由CSDN通过智能技术生成

最近在看RNN模型，为简单起见，本篇就以简单的二进制序列作为训练数据，而不实现具体的论文仿真，主要目的是理解RNN的原理和如何在TensorFlow中构造一个简单基础的模型架构。其中代码参考了这篇博客。

数据集

首先我们看一下实验数据的构造：

输入数据X：在时间t，Xt的值有50%的概率为1，50%的概率为0；
输出数据Y：在实践t，Yt的值有50%的概率为1，50%的概率为0，除此之外，如果`Xt-3 == 1`，Yt为1的概率增加50%， 如果`Xt-8 == 1`，则Yt为1的概率减少25%， 如果上述两个条件同时满足，则Yt为1的概率为75%。

可知，Y与X有两个依赖关系，一个是t-3，一个是t-8。我们实验的目的就是检验RNN能否捕捉到Y与X之间的这两个依赖关系。实验使用交叉熵作为评价标准，则有下面三条理想的实验结果：

如果RNN没有学习到任何一条依赖，那么Yt为1的概率就是0.625（0.5+0.5*0.5-0.5*0.25），所以所获得的交叉熵应该是0.66（-(0.625 * np.log(0.625) + 0.375 * np.log(0.375))）。
如果RNN学习到第一条依赖关系，即Xt-3为1时Yt一定为1。那么，所以最终的交叉熵应该是0.52（-0.5 * (0.875 * np.log(0.875) + 0.125 * np.log(0.125)) -0.5 * (0.625 * np.log(0.625) + 0.375 * np.log(0.375))）。
如果RNN学习到了两条依赖，那么有0.25的概率全对，0.5的概率正确率是75%，还有0.25的概率正确率是0.5。所以其交叉熵为0.45（-0.50 * (0.75 * np.log(0.75) + 0.25 * np.log(0.25)) - 0.25 * (2 * 0.50 * np.log (0.50)) - 0.25 * (0)）。

数据预处理

这部分主要是生成实验数据，并将其按照RNN模型的输入格式进行切分和batch化。代码入下：
1，生成实验数据：

def gen_data(size=100000):
    X = np.array(np.random.choice(2, size=(size,)))
    Y = []
    for i in range(size):
        threshold = 0.5
        #判断X[i-3]和X[i-8]是否为1，修改阈值
        if X[i-3] == 1:
            threshold += 0.5
        if X[i-8] == 1:
            threshold -= 0.25
        #生成随机数，以threshold为阈值给Yi赋值
        if np.random.rand() > threshold:
            Y.append(0)
        else:
            Y.append(1)
    return X, np.array(Y)