以循环网络输入层特征向量维度x,输出层向量维度y,隐藏层数目2,每个隐藏层长度(或称节点数,神经元数)h为例说明(图1):
图1
如不考虑时间,假设隐含层的激活函数是ϕ,对于一个样本数为n,特征向量维度为x的批量数据X(X是一个n行x列的实数矩阵)来说(图2),
图2
那么这个隐藏层的输出就是:
H1=ϕ(XWxh+b1,h)
H2=ϕ(H1Whh+b2,h)
把隐藏层的输出H2作为输出层的输入,最终的输出:
Ŷ=softmax(H2Why+by)
将上面网络(图2)改成循环神经网络,加上时间t(图1),隐藏层的输出是:
H1,t=ϕ(XtWxh+H1,t-1W1,hh+b1,h)
H2,t=ϕ(H1,tW1,hh+H2,t-1W2,hh+b2,h)
把隐藏层的输出H2,t作为输出层的输入,最终的输出:
Ŷ=softmax(H2,tWhy+by)