基于简单RNN循环神经网络的数字识别模型

一、RNN的简介

RNN的基本结构是BP神经网络的结构,也具备输入层、隐藏层和输出层。只不过在RNN中,隐藏层的输出不仅可以传到输出层,也可以传到下一时刻是隐藏层,其结构如下
rnn结构

二、模型准备

2.1首先,导入手写数字数据集,此数据集为60000张手写数字,为白底黑字,结果如下:

from tensorflow.keras.datasets import mnist

2.2其次从keras的layers中导入相应的简单的RNN模型和全连接层,以及keras模式中导入顺序结构,标签转化等包:

from keras.utils import np_utils#标签转化
from keras.models import Sequential#顺序结构
from keras.layers import Dense#全连接层
from keras.layers.recurrent import SimpleRNN#循环神经网络
from tensorflow.keras.optimizers import Adam#优化器

2.3设置输入数据大小,以及隐藏层的神经元cell个数:

#数据长度有一行28个像素
input_size=28
#一共28行
time_steps=28
#隐藏层cell个数
cell_size=50

2.4载入手写数字数据,并且归一化,归一化的目的是减少运算量,加快模型的训练:

#载入数据
(x_train,y_train),(x_test,y_test)=mnist.load_data()
#(60000,28,28)
#归一化
x_train=x_train/255
x_test=x_test/255

2.5对标签进行转化,因为手写数字识别模型最终得到0-9,因此最终结构为10个类,所以转化如下:

#转化标签为one hot
y_train=np_utils.to_categorical(y_train,num_classes=10)
y_test=np_utils.to_categorical(y_test,num_classes=10)

2.6模型的创建,首先创建顺序模型:

model=Sequential()

2.7在创建的顺序模型中加入简单RNN模型,并且设置输入输入输出的平面大小和隐藏神经元个数:

model.add(SimpleRNN(
    units=cell_size,#输出到隐藏层,隐藏层有50个神经元
    input_shape=(time_steps,input_size)#输入
))

2.8定义优化器

#定义优化器
adam=Adam(learning_rate=1e-4)
#定义优化器,loss方选,计算准确率
model.compile(optimizer=adam,loss='categorical_crossentropy',metrics=['accuracy'])

2.9训练设置,每次64张图,总共10个周期

#训练模式
model.fit(x_train,y_train,batch_size=64,epochs=10)

2.10模型评估并且保存模型

#模型评估
loss,accuracy=model.evaluate(x_test,y_test)
print('test loss',loss)
print('test accuracy',accuracy)
#保存文件
model.save('model.h5')


三、试验结果

在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
本论文从深度神经网络模型结构出发,展开了较为系统和深入的研究,一方面对现有的模型进行优化,另一方面结合语音及语言信号的特性探究新的网络结构模型,从而提高基于深度神经网络的语音识别系统的性能和训练效率。首先,本文研究了基于前馈全连接深度神经网络(Deep Neural Networks,DNN)的语音声学建模。我们分别探索了基于sigmoid非线性激活函数的DNN(sigmoid-DNN)和基于整流线性单元(Rectified Linear Units,ReLU)的 DNN(RL-DNN)的大词汇量连续语音识别。首先针对传统的sigmoid-DNN,我们通过研究发现其隐层权重越往高层稀疏性越强的特性,提出了一种隐层节点递减的DNN结构,命名为sDNN。实验结果表明sDNN可以在保持性能基本不变的情况下将模型参数量减少到45%,从而获得2倍的训练加速。进一步地我们提出将dropout预训练作为一种神经网络的初始化方法,可以获得相比于传统的无监督Pre-training更好的性能。然后我们针对RL-DNN的研究发现,通过合理的参数配置,可以采用基于大批量的随机梯度下降算法来训练RL-DNN,从而能够利用多个图形处理单元(Graphic Processing Unit,GPU)进行并行化训练,可以获得超过10倍的训练加速。进一步地我们提出了一种绑定标量规整的方法用于优化RL-DNN的训练,不仅使得训练更加稳定,而且能够获得显著的性能提升。其次,本文提出一种固定长度依次遗忘编码(Fixed-size Ordinally Forgetting Encoding,FOFE)方法用于语言模型建模。FOFE通过简单的顺序遗忘机制来对序列中的单词位置进行建模,可以将任何可变长度的单词序列唯一地编码成固定大小的表达。本研究中,我们提出基于FOFE的前馈神经网络语言模型(FOFE-FNNLM)。实验结果表明,在不使用任何反馈连接的情况下,基于FOFE的FNNLM显著的优于标准的基于1-of-k编码作为输入的FNNLM,同时也优于基于循环神经网络(Recurrent Neural Networks,RNN)的语言模型。再次,本文提出了一种新颖的神经网络结构,命名为前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN)。FSMN 可以对时序信号中的长时相关性(long-term dependency)进行建模而不需要使用反馈连接。本研究所提出来的FSMN可以认为是在标准的前馈全连接神经网络的隐藏层中配备了一些可学习的记忆模块。这些记忆模块使用抽头延迟线结构将长时上下文信息编码成固定大小的表达作为一种短时记忆机制。我们在语音识别声学建模以及语言模型建模任务上验证了所提出的FSMN模型。实验结果表明,FSMN不仅可以取得相比于当前最流行的循环神经网络更好的性能,而且训练更加高效。在此基础上,我们探索了 FSMN模型的改进,通过结合低秩矩阵分解的思路以及修改记忆模块的编码方式提出了一种结构简化的FSMN,命名为cFSMN。同时通过在cFSMN的记忆模块之间添加跳转连接,避免深层网络训练过程梯度消失的问题,实现了非常深层的cFSMN的训练。我们在Switchboard数据库以及Fisher数据库进行的声学建模实验验证了所提出的模型的性能。Fisher数据库的实验结果表明基于深层的cFSMN的识别系统相比于主流的基于BLSTM的识别系统可以获得13.8%的相对词错误率下降。最后,本文提出一种用于高维数据建模的新模型,称之为联合优化正交投影和估计(Hybrid Orthogonal Projection and Estimation,HOPE)模型。HOPE 将线性正交投影和混合模型融合为一个生成模型。HOpe模型本身可以从无标注的数据中通过无监督最大似然估计方法进行无监督学习,同时也可以采用带标注的数据进行有监督学习。更为有趣的是,我们的研究阐述了 HOPE模型神经网络之间的密切关系。HOPE可以作为一个新的工具用于探究深度学习的黑盒子,以及用于有监督和无监督深度神经网络的训练。我们在语音识别TIM1T数据库以及图像分类MNIST数据库验证了基于HOPE模型的无监督、半监督以及有监督学习。实验结果表明,基于HOPE框架训练的神经网络相比于现有的神经网络在无监督、半监督以及有监督学习任务上都获得显著的性能提升。 知网论文,学习使用

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一无所知的小白·

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值