第五周【任务1】签到作业 过儿--《深度学习》花书训练营【第五期】

a. 用公式说明为何L2正则化又常被称作“weight decay”

 

L2 regularization 又被叫做“权重衰减”,主要源于其在代价函数后面增加了一个正则化项。公式如下:

导致在L@正则化后,代价函数进行求导如下:

可以发现L2正则化对b没有影响,但是对w的更新产生了影响:

相比之下,w每次更新都会比没有正则化的情况下小一些,因此起到了权重衰减(weight decay)的作用。

参考资料:

为什么weight decay能够防止过拟合?

 


b. L1正则化使得模型参数具有稀疏性的原理是什么?(查阅资料找到L1与L0在一定条件下等价性)

 

        稀疏性就是很多参数为0的情况,对于维度很高的模型,稀疏性意味着抓住主要矛盾,可以提升模型的泛化性能。
L1正则化:

W*=argmin \sum_{j}^{ } \left ( t\left ( X_{j} \right ) - \sum_{i}^{ } \omega_i h_{i}\left ( X_i \right ) \right )^2 + \lambda \sum_{i=1}^{k} \left | \omega_i \right |

L2正则化:

 

W*=argmin \sum_{j}^{ } \left ( t\left ( X_{j} \right ) - \sum_{i}^{ } \omega_i h_{i}\left ( X_i \right ) \right )^2 + \lambda \sum_{i=1}^{k} \omega_i^2

从梯度下降的角度理解

在这里插入图片描述

 

用梯度下降的方法,当w小于1的时候,L2正则项的惩罚效果越来越小,L1正则项惩罚效果依然很大,L1可以惩罚到0,而L2很难。

L2的求导后为一阶函数,对于大的www参数,惩罚作用大,对于小的www参数,惩罚作用小,很难惩罚到0,实际上起到了把大参数和小参数趋向于平均的作用;L1求导后为常数,无论对于大小参数,其惩罚作用一样,所以可以把小参数惩罚到0。

 

参考资料:

【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?
 


c. 多任务学习通常可以获得比单任务学习更好的泛化能力,主要原因有哪些?

        多任务学习(Multi-task learning)是和单任务学习(Single-task learning)相对的一种机器学习方法,可以同时学习多个任务,一般用于分类和回归。

多任务学习的基本假设是多个任务之间具有相关性(预测一张人脸是男性还是女性可能有利于预测这张人脸是大人还是小孩)、训练集的分布具有相关性、或者各个任务的域是相似的(比如所有任务涉及的图像都是室外风景)。因此能够利用任务之间的相关性互相促进,提高分类结果。

下面有一些常见理论:

  1. 如果两个任务是处理输入的相同函数,但是在任务信号中加入独立的噪声处理,很明显这两个任务是相关的。
  2. 如果两个任务用于预测同个个体的属性的不同方面,这些任务比预测不同个体的属性的不同方面更相关。
  3. 两个任务共同训练时能相互帮助并不意味着它们是相关的:有时通过在后向传播网络的一个额外输出加入噪声可以提高泛化能力,但是这个噪声任务与其它任务不相关。

例如,在属性分类中,抹口红和戴耳环有一定的相关性,单独训练的时候是无法利用这些信息的,而多任务学习则可以利用任务相关性联合提高多个属性分类的精度。

 

首先,多任务学习可以学到多个任务的共享表示,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使主任务获得更好的泛化能力。

此外,由于使用共享表示,多个任务同时进行预测时,减少了数据来源的数量以及整体模型参数的规模,使预测更加高效。

因此,在多个应用领域中,可以利用多任务学习来提高效果或性能,比如垃圾邮件过滤、网页检索、自然语言处理、图像识别、语音识别等。

单任务学习(SLT)如下图:

 

mt1

多任务学习(MLT)入下图:

mt2

 

        单任务学习的过程中忽略了任务之间的联系,而现实生活中的学习任务往往是有千丝万缕的联系的。

例如,当一名守门员在学习如何扑救时,并不是单纯地学习如何去扑球,而是会涉及许多相关的学习内容,比如如何进行预判,如何移动脚步,如何腾身起跳,如何平稳落地等。相似的,在计算机领域,多标签图像的分类,人脸的识别等等,这些任务都可以分为多个子任务去学习,多任务学习的优势就在于能发掘这些子任务之间的关系,同时又能区分这些任务之间的差别。

目前多任务学习方法大致可以总结为两类,一是不同任务之间共享相同的参数(common parameter),二是挖掘不同任务之间隐藏的共有数据特征(latent feature)。

 

相关参考资料:

多任务学习(Multi-task learning)

 


d. 为什么在神经网络中,dropout可以起到正则化的作用?

 

  • 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况,减少神经元之间复杂的共适应性。
  • 由于每一次都会随机地删除节点,下一个节点的输出不再那么依靠上一个节点,也就是说它在分配权重时,不会给上一层的某一结点非配过多的权重,起到了和L2正则化压缩权重差不多的作用。
  • 可以将dropout看作是模型平均的一种,平均一个大量不同的网络。不同的网络在不同的情况下过拟合,虽然不同的网络可能会产生不同程度的过拟合,但是将其公用一个损失函数,相当于对其同时进行了优化,取了平均,因此可以较为有效地防止过拟合的发生。对于每次输入到网络中的样本(可能是一个样本,也可能是一个batch的样本),其对应的网络结构都是不同的,但所有的这些不同的网络结构又同时共享隐含节点的权值,这种平均的架构被发现通常是十分有用的来减少过拟合方法。



参考资料:

理解神经网络中的Dropout

Dropout正则化

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值