计算机视觉中的深度学习10: 神经网络的训练1

最新推荐文章于 2022-09-01 15:56:43 发布

SuPhoebe

最新推荐文章于 2022-09-01 15:56:43 发布

阅读量907

点赞数

分类专栏：机器学习与数学模型

本文链接：https://blog.csdn.net/u013007900/article/details/108689385

版权

本文详细探讨了神经网络训练中的激活函数、数据预处理、权重初始化和正则化等关键环节。从Sigmoid到ReLU及其变种，解释了不同激活函数的优缺点。此外，还讨论了权重初始化的重要性和各种方法，如Xavier初始化和Kaiming初始化。正则化部分介绍了 Dropout、DropConnect等策略。最后提到了数据扩充在提高模型泛化能力上的作用。

摘要由CSDN通过智能技术生成

Slides：百度云提取码: gs3n

第9课讲的是神经网络的软硬件，感觉比较科普，不做总结。

总览

单次设置
1. 激活函数
2. 数据预处理
3. 权重初始化
4. 正则化
动态训练
1. 学习率规划
2. large-batch 训练；
3. 超参数优化
训练后
1. 模型融合
2. 迁移学习

今天第一讲讲解的是第一点，第二讲将介绍第二点和第三点。

激活函数

在这里插入图片描述

之前也介绍了激活函数是什么，不同的激活函数在训练上，在效果上，在解决问题的方面都各有侧重。下面一一来介绍。

在这里插入图片描述

Sigmoid

非常常用的激活函数，在很多线性分类的machine learning模型中也会有用到。

在这里插入图片描述
$\sigma(x) = {1\over 1+e^{-x}}$

将函数值限制在[0, 1]之间
由于它们可以很好地模拟神经元的饱和“触发率”，因此在历史上很受欢迎
通常被用于表示概率，很适合用于表示boolean
也是一种非常不错的非线性关系的表达

缺点

饱和的神经元将使得梯度下降效果糟糕
- 我们可以看到在接近 $±\infin$ 的时候，梯度是0，这也使得sigmoid难以训练
- 这种影响甚至会通过链式法则传递到之前的神经元中，导致整个网络的灾难性慢收敛
- 这是这个函数被弃用的最最最主要原因，其他缺点都是可以接受的
sigmoid函数的输出中心不是0
- 在神经元输入全为正的情况下，在计算梯度的时候，w中的每一维都会同为正数。这也导致了训练收敛缓慢。

最低0.47元/天解锁文章

SuPhoebe

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉中的深度学习10: 神经网络的训练1

Slides：百度云提取码: gs3n第9课讲的是神经网络的软硬件，感觉比较科普，不做总结。总览单次设置激活函数数据预处理权重初始化正则化动态训练学习率规划large-batch 训练；超参数优化训练后模型融合迁移学习今天第一讲讲解的是第一点，第二讲将介绍第二点和第三点。激活函数之前也介绍了激活函数是什么，不同的激活函数在训练上，在效果上，在解决问题的方面都各有侧重。下面一一来介绍。Sigmoid非常常用的激活函数，在很多线性分类的machi
复制链接

扫一扫

专栏目录