计算机视觉中的深度学习10: 神经网络的训练1

本文详细探讨了神经网络训练中的激活函数、数据预处理、权重初始化和正则化等关键环节。从Sigmoid到ReLU及其变种,解释了不同激活函数的优缺点。此外,还讨论了权重初始化的重要性和各种方法,如Xavier初始化和Kaiming初始化。正则化部分介绍了 Dropout、DropConnect等策略。最后提到了数据扩充在提高模型泛化能力上的作用。
摘要由CSDN通过智能技术生成

Slides:百度云 提取码: gs3n

第9课讲的是神经网络的软硬件,感觉比较科普,不做总结。

总览

  1. 单次设置
    1. 激活函数
    2. 数据预处理
    3. 权重初始化
    4. 正则化
  2. 动态训练
    1. 学习率规划
    2. large-batch 训练;
    3. 超参数优化
  3. 训练后
    1. 模型融合
    2. 迁移学习

今天第一讲讲解的是第一点,第二讲将介绍第二点和第三点。

激活函数

在这里插入图片描述

之前也介绍了激活函数是什么,不同的激活函数在训练上,在效果上,在解决问题的方面都各有侧重。下面一一来介绍。

在这里插入图片描述

Sigmoid

非常常用的激活函数,在很多线性分类的machine learning模型中也会有用到。

在这里插入图片描述
σ ( x ) = 1 1 + e − x \sigma(x) = {1\over 1+e^{-x}} σ(x)=1+ex1

  • 将函数值限制在[0, 1]之间
  • 由于它们可以很好地模拟神经元的饱和“触发率”,因此在历史上很受欢迎
  • 通常被用于表示概率,很适合用于表示boolean
  • 也是一种非常不错的非线性关系的表达

缺点

  • 饱和的神经元将使得梯度下降效果糟糕
    • 我们可以看到在接近 ± ∞ ±\infin ±的时候,梯度是0,这也使得sigmoid难以训练
    • 这种影响甚至会通过链式法则传递到之前的神经元中,导致整个网络的灾难性慢收敛
    • 这是这个函数被弃用的最最最主要原因,其他缺点都是可以接受的
  • sigmoid函数的输出中心不是0
    • 在神经元输入全为正的情况下,在计算梯度的时候,w中的每一维都会同为正数。这也导致了训练收敛缓慢。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值