单层循环神经网络 每一步的W,U,V都是一样的。 S3=tanh(Uxt+WS2) 递归的特点 乘积的形式可以复用中间的结果 序列很长的。。。。文章的单词可能很大。 分块梯度。。。 双向神经网络----更好地学习上下文信息,单方向一般只能学到序列的一半信息(因为另一半信息还没有输出)