- 联系
- 管理
- 订阅
-
<div class="blogStats"> <!--done-->
随笔-
75
文章-
0
评论-
40</div><!--end: blogStats --> </div><!--end: navigator 博客导航栏 --> <div id="post_detail">
[Deep Learning] GELU (Gaussian Error Linerar Units)
</h1> <div class="clear"></div> <div class="postBody">
(转载请注明出处哦~)
参考链接:
1. 误差函数的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0
2. 正态分布的博客:https://blog.csdn.net/hhaowang/article/details/83898881
3. StackExchange Mathematics: Why the error function is so similar to the hyperbolic tangent?
4. WolframAlpha: y = tanh(x) - \int_{0}^{x}e^{-t^{2}}dt
前导知识:正态分布(section 1),误差函数(section 2),ReLU,ELU, dropout, zoneout.
5. GELU 论文:https://arxiv.org/abs/1606.08415
6. Data Science: What is GELU activation? https://datascience.stackexchange.com/questions/49522/what-is-gelu-activation
7. Logistic vs Gaussian: http://visionlab.harvard.edu/Members/Anne/Math/Logistic_vs_Gaussian.html
8. Normal approximation to logistic distribution: https://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/
GELU(x)=Φ(x)∗I(x)+(1−Φ(x))∗0x=xΦ(x)GELU(x)=Φ(x)∗I(x)+(1−Φ(x))∗0x=xΦ(x)链接: https://arxiv.org/pdf/1710.05941.pdf对比GELU与swish函数,GELU在正值区间的变化更为显著,因此具有稍高一些的梯度,在反向传播时可以更有效的更新梯度;
在负值区域,GELU函数的值相较于swish普遍更接近与x轴,因此具有更佳的单边抑制效果。
比较有意思的是GELU与swish的导数均在负值区间内出现了负数的情况,这与以往的激活函数ReLU, sigmoid, tanh等不同,这些激活函数的导数取值非负。但是GELU导数的负值出现的更早,并且负值更小,swish有较长一段区间都有非常微小的负值,变化并不明显。个人认为这可能是GELU效果优于xσ(x)及其他激活函数的原因之一。即当input的值在接近-1边界时,可以通过负的导数的调节,将其拉回较大取值处。GELU相较于swish可能有更好的调节效果。
另外,GELU的导数相较于xσ(x)的导数变化幅度更大一些,对于网络中权值的更新调节可能更为灵敏。---这只是个人的理解,并非官方论文的结论。
您愿意请我吃一根雪糕吗?[支付宝] O(∩_∩)O
00<div class="clear"></div> <div id="post_next_prev"> <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" class="p_n_p_prefix">« </a> 上一篇: <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" title="发布于 2019-06-24 19:15">[Python] 等号赋值, copy, deepcopy的区别</a> <br> <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" class="p_n_p_prefix">» </a> 下一篇: <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" title="发布于 2019-07-05 10:53">[NLP] cs224n-2019 Assignment 1 Exploring Word Vectors</a>
最新 IT 新闻:
· 5nm怎样给摩尔定律续命?巨头开打制程之战2.0,祭出三大杀器
· 苹果英特尔对软银子公司发起反垄断诉讼 指控其为专利流氓
· 王思聪被北京二院再发限制消费令:此前上海禁令刚取消
· 私有云服务商Gravitational获2500万美元A轮融资
· 比特币矿业巨头嘉楠在美IPO融资9000万美元
» 更多新闻...</div>
gelu
最新推荐文章于 2024-04-18 19:09:56 发布
【活动】京东云服务器_云主机低于1折,低价高性能产品备战双11
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
【培训】马士兵老师一对一在线指导!帮你从月薪3000到日薪3000
【推荐】天翼云双十一翼降到底,云主机11.11元起,抽奖送大礼
【提升】Java程序员年薪40W,他1年走了别人5年的学习之路
【推荐】流程自动化专家UiBot,体系化教程成就高薪RPA工程师
· 激活函数记录
· 牛顿方法
· 透过表象看本质!?之二数据拟合
· deep learning 自编码算法详细理解与代码实现(超详细)
· 线性回归
» 更多推荐...