为什么CNN的激活函数使用relu,RNN的激活函数使用tanh？

自律并放纵者

已于 2023-04-17 16:53:25 修改

阅读量669

点赞数

分类专栏：深度学习Q&A 文章标签： python 深度学习 cnn rnn pytorch

于 2023-04-17 15:02:05 首次发布

本文链接：https://blog.csdn.net/qq_45689637/article/details/130200148

版权

深度学习Q&A 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                    CNN使用ReLU激活函数的原因是ReLU能够更好地处理卷积层输出中的非线性特征，他的导数是0或1，避免和Sigmoid函数出现一样的问题：当输入值非常大或非常小的时候容易出现梯度消失的问题。
RNN不使用ReLU的原因是ReLU的输出范围在 [0, +∞) 上，会导致输出值非常的大，而使用tanh，他的输出范围在[-1, 1] 上，相当于对输出进行了标准化使得网络更容易训练，此外，tanh 激活函数具有平滑的导数，有助于梯度传播和避免梯度消失问题。但是由于tanh导数的取值范围为 (0,1],因此长时间依赖关系仍然可能导致梯度消失或爆炸问题。因此，一般需要采用梯度裁剪等技术来进一步避免这些问题。
也有大佬说，当初设计RNN的时候relu激活函数还没出现，而且tanh后的值也相对稳定，分布在0附近，因此也一直在使用他。
所以遇到同样问题的伙伴不要像我一样死钻牛角尖了，不是很重要，RNN几乎不怎末用，处理不是特别长的序列时使用GRU和LSTM还是比较多的。