![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 70
芦边湖泊
这个作者很懒,什么都没留下…
展开
-
pytorch-lightning浅踩坑记录
pytorch lightning原创 2022-08-30 18:15:01 · 1049 阅读 · 1 评论 -
一文搞懂激活函数(Sigmoid/ReLU/LeakyReLU/PReLU/ELU)
本文整理/翻译自AYOOSH KATHURIA的博客:Intro to Optimization in Deep Learning: Vanishing Gradients and Choosing the Right Activation Function, 整理过程中加入了一些自己的观点,欢迎讨论/指正/点赞!#***文章大纲***#1. Sigmoid 和梯度消失(Vanishing Gradients) 1.1 梯度消失是如何发生的? 1.2 饱和神经元(Saturated转载 2021-04-25 19:59:26 · 2151 阅读 · 0 评论 -
Batch Normalization
BN的基本思想机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。BN的基本思想其实相当直观:因为深层神经网络在做非线性变换前的激活输入值(就是WU+B,U是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于S转载 2021-04-01 19:07:35 · 63 阅读 · 0 评论