Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/80209816
Sigmoid激活函数虽然具有概率解释(probabilistic interpretation),但是具有如下缺点:1、使得网络收敛较慢(slow);2、使得网络参数解收敛不准确(inaccurate)。
ReLU激活函数虽然性能好于Sigmoid,但是缺乏概率解释。
文中提出GELU高斯误差线性单元bridge确定性激活函数ReLU和随机正则子Dropout之间的gap,也就是希望GELU这种随机性激活函数替代ReLU。文中提到,在几个任务中,GELU好于ReLU和ELU。
GELU定义如下:
GELU(