深度学习小笔记04-魏秀参《解析深度学习-卷积神经网络原理与视觉实践》

这本书讲的很好,难得的高质量的精华内容,相比其他蹭热度的书靠谱扎实的多。
我这里记录一下阅读过程中对我来说有用的内容,摘抄自原书,因此标记为转载:

  • 9.4小结:

p111在分类问题的目标函数中,交叉熵损失函数是最为常用的分类目标函数,且效果一般优于合页损失函数;大间隔损失函数和中心损失函数的出发点在于增大类间距离、减小类内距离,如此一来不仅要求分类明确,而且还有助于提高特征的分辨能力;坡道损失函数是分类问题目标函数中的一类非凸损失函数,由于其良好的抗噪特性,推荐将其用于样本噪声或离群点较多的分类任务中。
// 我为什么觉得这句重要呢?因为在很多情况下,groundtruth并不一定是准确地,或者其本身含有很多噪声,这在实际是很常见的情况。所有的网络评估标准都是以GT为依据,但是实际GT却有可能不是真实值,这时候坡道损失函数的特性就重要多了。

p112在回归问题的目标函数中,L1和L2是两个直观且常用的回归任务目标函数,在实际使用中L2损失函数略优于L1,Tukey’s biweight损失函数为回归问题中的一类非凸损失函数,同样具有良好的抗噪能力。在一些如人脸年龄估计、头部角度识别等任务标记具有不确定性的特殊应用场景下,基于标记分布的损失函数不失为一种优质的选择。

  • 11.2.5微调神经网络

微调预训练模型就是用目标任务数据在原先预训练模型上继续进行训练过程。
1. 由于网络已经在原始数据上收敛,因此应设置较小的学习率在目标数据上微调,如10^-4或以下、
2. 卷积神经网络浅层拥有更泛化的特征,深层特征更加抽象,对应高层语义,因此,新数据上高层语义更新的可能性较大,可以根据层深设置不同学习率,深层大于浅层
3. 从后往前微调网络,数据越多,可调整越多层(建议)
4. 当目标数据极少同时和原始数据有较大差异时候,目前一种有效的方式是借助部分原始数据与目标数据协同训练。

  • 11.3

批规范化操作可以一定程度上缓解深层网络训练时的“梯度弥散”效应,一般将批规范化操作设置于网络的非线性映射函数之前,批规范化操作可有效提高模型收敛率。(我在别的地方也有说放在后面会好一点,这个嘛。。等用的时候可以都试试)

对于模型优化算法选择,随机梯度下降是目前使用最多的网络训练方法(这本书的出版时间:2018年11月1版,为什么要写明时间,因为这里用的时间是:目前,所以我要写出来时间),通常训练时间较长,但在理想的网络参数初始化和学习率设置方案下,随机梯度下降法得到的网络更稳定,结果更可靠。若希望网络收敛更快且需要训练较复杂结构的网络时,推荐使用其他一堆优化算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值