Bert使用的激活函数：gelu---高斯误差线性单元

最新推荐文章于 2025-04-09 14:50:38 发布

eunicechen

最新推荐文章于 2025-04-09 14:50:38 发布

阅读量1.5w

点赞数 2

分类专栏：机器学习深度学习文章标签： Bert 激活函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eunicechen/article/details/84774047

版权

机器学习同时被 2 个专栏收录

17 篇文章

订阅专栏

4 篇文章

订阅专栏

本文深入探讨了BERTTransformer结构中使用的GELU激活函数，解释了其如何通过非线性变换提供更好的随机正则化效果，以及相较于ReLU的优势，尤其是在深度学习任务中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bert Transfromer结构中使用了这个激活函数---gelu（Gaussian error linear units，高斯误差线性单元），Gelu在论文中已经被验证，是一种高性能的神经网络激活函数，因为GELU的非线性变化是一种符合预期的随机正则变换方式（这句话，说实话，我翻译自原论文，具体怎么理解呢？我自己是如下理解的）。

激活函数的作用：给网络模型加入非线性因子，这个非线性因子的实际操作就是在wx+b这样的线下变化后面加入一个非线性变化的函数fun。
Gelu的操作方式：Gelu怎么完成非线性变换的呢？引入这样的变化函数：

公式中x是自己，P(X<=x)决定x中有多少信息保留，并且由于P是服从高斯分布的，也就满足了非线性的特征，并且更加符合数据的分布预期。

相比Relu：Relu将小于0的数据映射到0，将大于0的给与等于映射操作，虽然性能比sigmoid好，但是缺乏数据的统计特性，而Gelu则在relu的基础上加入了统计的特性。论文中提到在好几个深度学习任务中都优于Relu的效果。

Reference:

[1] Gaussian Error Linear Units (GELUs), Dan Hendrycks, Kevin Gimpel

(Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3))

https://arxiv.org/abs/1606.08415

博客等级

码龄16年

18
原创

9
点赞

29
收藏

3
粉丝

关注

私信

热门文章

分类专栏

笔记
机器学习 17篇
library 4篇
NLP 4篇
深度学习 4篇

最新评论

单层lstm的伪孪生网络计算句子的相似度
wenhuiliu701: 大佬可以分享一下伪孪生的代码嘛，万分感激！
Tensorboard estimator export_savedmodel简单用法
233彭于晏: 找到原因了[code=python] estimator.export_savedmodel(export_dir, serving_input_fn(), assets_extra={"vocab.txt": FLAGS.vocab_file}, as_text=False, strip_default_attrs=True) ## 把serving_input_fn()括号去掉 [/code]
Tensorboard estimator export_savedmodel简单用法
233彭于晏: 请教下这个是什么原因呀，大佬
Tensorboard estimator export_savedmodel简单用法
233彭于晏: [code=python] TypeErrorTraceback (most recent call last) <ipython-input-34-5c2d99dad76c> in <module>() 14 15 export_dir = os.path.join("./", "saved_model") ---> 16 estimator.export_savedmodel(export_dir, serving_input_fn(),as_text=False,strip_default_attrs=True) /opt/anaconda2/lib/python2.7/site-packages/tensorflow/python/estimator/estimator.pyc in export_savedmodel(self, export_dir_base, serving_input_receiver_fn, assets_extra, as_text, checkpoint_path, strip_default_attrs) 583 self._create_and_assert_global_step(g) 584 random_seed.set_random_seed(self._config.tf_random_seed) --> 585 serving_input_receiver = serving_input_receiver_fn() 586 587 # Call the model_fn and collect the export_outputs. TypeError: 'InputFnOps' object is not callable [/code]
LibSVM3.21使用笔记----for python3.4 配置
七百攻的卉卉酱: 请问一下输入 from svmutil import *的时候，老是出错是咋回事呢 Traceback (most recent call last): File "<pyshell#4>", line 1, in <module> from svmutil.py import * ModuleNotFoundError: No module named 'svmutil'

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。