https://www.zhihu.com/question/61265076 也就是说在RNN中直接把激活函数换成ReLU会导致非常大的输出值另外一方面,将激活函数换成ReLU也不能解决梯度在长程上传递的问题