《神经网络与深度学习》学习笔记二

文章讨论了机器学习和深度学习中的性能优化策略,包括动量法和自适应梯度算法在优化模型参数中的应用。此外,还介绍了二阶优化方法如牛顿法,并提到了全连接网络和卷积神经网络的基础知识,如卷积层、池化层以及LeNet-5网络结构。
摘要由CSDN通过智能技术生成

一、性能优化

当任务在试图预测数值时,最常⻅的损失函数是平⽅误差(squared error),即预测值与实际值之差的平⽅。当试图解决分类问题时,最常⻅的⽬标函数是最⼩化错误率,即预测与实际情况不符的样本⽐例。有些⽬标函数(如平⽅误差)很容易被优化,有些⽬标(如错误率)由于不可微性或其他复杂性难以直接优化。在这些情况下,通常会优化替代⽬标。通常,损失函数是根据模型参数定义的,并取决于数据集。在⼀个数据集上,我们可以通过最⼩化总损失来学习模型参数的最佳值。该数据集由⼀些为训练⽽收集的样本组成,称为训练数据集(training dataset,或称为训练集(training set))。然⽽,在训练数据上表现良好的模型,并不⼀定在“新数据集”上有同样的性能,这⾥的“新数据集”通常称为测试数据集(test dataset,或称为测试集(test set))。综上所述,可⽤数据集通常可以分成两部分:训练数据集⽤于拟合模型参数,测试数据集⽤于评估拟合的模型。然后我们观察模型在这两部分数据集的性能。“⼀个模型在训练数据集上的性能”可以被想象成“⼀个学⽣在模拟考试中的分数”。这个分数⽤来为⼀些真正的期末考试做参考,即使成绩令⼈⿎舞,也不能保证期末考试成功。换⾔之,测试性能可能会显著偏离训练性能。当⼀个模型在训练集上表现良好,但不能推⼴到测试集时,这个模型被称为过拟合(overfitting)的。就像在现实⽣活中,尽管模拟考试考得好,真正的考试不⼀定百发百中。

1、动量法:

 如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由 于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点 处因为质量小速度很快减为 0,导致无法离开这块平地。

动量方法相当于把纸团换成了铁球;不容易受到外力的干扰, 轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能 离开平地。

2、自适应梯度算法

当我们获得了⼀些数据源及其表⽰、⼀个模型和⼀个合适的损失函数,接下来就需要⼀种算法,它能够搜索出最佳参数,以最⼩化损失函数。深度学习中,⼤多流⾏的优化算法通常基于⼀种基本⽅法‒梯度下降(gradientdescent)。简⽽⾔之,在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进⾏少量变动,训练集损失会朝哪个⽅向移动。然后,它在可以减少损失的⽅向上优化参数。

 参数自适应变化:具有较大偏导的参数相应有一个较大的学习 率,而具有小偏导的参数则对应一个较小的学习率具体来说,每个参数的学习率会缩放各参数反比于其历史梯度 平方值总和的平方根。

3、性能优化问题描述

待解决问题: 权值𝐰取何值,指标函数𝐽(𝐰)最小? 恰恰是最优化方法中的基本问题:函数最小化。

进一步,我们希望建立迭代形式,并且形式尽量简单,类似 基本BP算法(最速梯度法): 𝐰𝑘+1 = 𝐰𝑘 + 𝛼𝑘𝐩𝑘 如何选取𝛼𝑘, 𝐩𝑘构成优化核心内容

4、二阶算法:
(1)牛顿法:

(2)其他二阶算法:

 二、常用技巧

 三、深度学习平台

四、卷积神经网络基础

全连接网络:链接权过多,难算难收敛,同时可 能进入局部极小值,也容易产生过拟合问题 e.g. 输入为96x96图像,要学习100个特征 局部连接网络:顾名思义,只有一部分权值连接。 部分输入和权值卷积。

填充(Padding),也就是在矩阵的边界上填充一些值,以 增加矩阵的大小,通常用0或者复制边界像素来进行填充

 池化思想:使用局部统计特征,如均值或最大值。解 决特征过多问题

1、卷积神经网络结构:

2、LeNet-5网络:

C1层:

S2层:

C3层:

S4层:

 C5层:

 F6层

 输出层:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值