Datawhale X 李宏毅苹果书 AI夏令营 深度学习(进阶)方向 Task03 学习笔记

李宏毅苹果书 :

1. 损失函数与优化

        交叉熵与均方误差:在分类任务中,交叉熵损失函数比均方误差更常用。交叉熵损失的梯度更适合优化,即使在初始阶段,参数远离最优解时,交叉熵的梯度也足够大,能够有效地指导参数更新,而均方误差在这些情况下梯度可能趋近于零,导致优化过程停滞。

2. 批量归一化(Batch Normalization)

        目的:批量归一化的主要目标是“平滑”误差表面,使得模型训练更为稳定和快速。通过批量归一化,模型可以避免梯度过小的问题,从而加快收敛速度。

        实现:批量归一化通过对每个批次的数据进行标准化,使得每一层的输入保持在一个稳定的分布。具体步骤包括计算每个批次的均值和标准差,然后使用这些值对批次数据进行归一化。

        训练与推断:在训练阶段,批量归一化会对每个批次的数据计算均值和标准差;而在推断阶段,使用训练时记录的移动平均值来代替批次计算,以保证一致性。

        内部协变量偏移:虽然批量归一化的作者提出了“内部协变量偏移”这一概念来解释其有效性,但后续研究表明,批量归一化的实际作用更多在于平滑误差表面,减少模型训练的不稳定性。

3. 卷积神经网络(CNN)        

基本概念:​​​​

        卷积核(Filters):卷积核是一个小矩阵,负责在图像上滑动并检测特定模式。不同的卷积核可以检测图像中的不同特征。

        感受野(Receptive Field):感受野指的是卷积核在图像中滑动时所覆盖的区域。随着网络的加深,感受野的范围也随之扩大,从而能够捕捉到更大的图像特征。
        参数共享:卷积层中的神经元共享相同的权重,即同一个卷积核在图像的不同区域滑动。这一机制大大减少了模型的参数量,降低了过拟合的风险。
        池化(Pooling):池化操作通过对卷积层的输出进行下采样,减少特征图的尺寸,从而降低计算复杂度。常见的池化方法包括最大池化和平均池化。

卷积神经网络的应用
        图像识别:CNNs广泛用于图像分类、目标检测等任务。通过多层卷积,网络能够逐渐提取出图像中的高级特征。
        围棋中的应用:在AlphaGo中,CNN被用来处理围棋棋盘的状态,通过多层卷积提取局部特征,最终决定下一步的最佳落子位置。
        下采样的影响:在某些任务中,如下围棋,简单的下采样操作可能导致重要信息的丢失,因此在设计网络时需要谨慎选择是否使用池化层。

4. 卷积神经网络的限制

        对尺度和旋转的敏感性:CNN在处理不同尺度或旋转的图像时,可能无法正确识别物体。因此,在图像识别任务中,常常需要通过数据增强技术生成不同尺度和旋转角度的训练样本,以提高模型的鲁棒性。

5. 归一化方法的多样性

        不同类型的归一化:除了批量归一化,还有其他多种归一化技术,如层归一化、实例归一化、权重归一化等。这些方法各有其适用场景,有助于提高模型的训练效果和稳定性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值