正则化

正则化的目的

减少泛化误差而不是训练误差,另外一种解释就是降低模型的复杂度。

常见的正则化的手段有:参数惩罚、dropout 、噪声注入、提前终止。

参数惩罚

\widetilde{J(\theta ;X,y)} = J(\theta ;X,y) + \alpha \mho (\theta )

L2正则

L2正则也被称为权重衰减,通过在目标函数添加L2范数平方项,使得权重更接近原点。

L2正则形式为:(这里不考虑偏执项)

 

\widetilde{J(w ;X,y)} = J(w ;X,y) + \frac{\alpha}{2} \left \| w \right \|_{2}^{2}

与之对应的梯度为:

\bigtriangledown \widetilde{J(w ;X,y)} = \bigtriangledown J(w ;X,y) + \alpha w

则权重更新就变成了

w = (1-\varepsilon \alpha )w - \varepsilon \bigtriangledown _{w}J(w;X, y)

没有加入L2正则项的权重更新方式对比

w = w - \varepsilon \bigtriangledown _{w}J(w;X, y)

从直观上比较发现,每次梯度更新前,权重都有一个收缩。

这种单步权重对于网络训练的影响可以参考下面的数学推导:

假设没有L2权重时的最小训练误差为w0,w0=argmin_{w}J(w)

利用泰勒级数展开就有:

J(w) = J(w0) + \frac{1}{2}(w-w0)^{T}H(w-w0)

H 为w=w0处计算的Hessian矩阵。在w0处由于是最优解梯度为0。J(w)的梯度为:

\bigtriangledown _{w}J(w) = H (w-w0)

加入正则项的梯度为:

\bigtriangledown _{w}\widetilde{J(w)} = \alpha w+ H (w-w0)=0

求解得到

\widetilde{w} = (H + \alpha I)^{-1}Hw_{0}=(Q\Lambda Q^{T} + \alpha I)^{-1}Q\Lambda Q^{T}w_{0}=Q(\Lambda +\alpha I)^{-1}\Lambda Q^{T}w_{0}}}

H 是实对称矩阵,可以分解成对角举证和标准正交基Q。根据上面的例子缩放因子可以定义为

\gamma =\frac{\lambda _{i}}{\lambda _{i}+\alpha }

从缩放因子考虑当\lambda _{i} >> \alpha这个时候的w会保持原来的大小。

\lambda _{i} <<\alpha 对应的w分量几乎为0.

从这个点分析L2正则化会抑制不重要的特征使其趋向于0,而对于主要特征没有影响,这样就降低模型的复杂度。

L1正则

L1的形式为:

\widetilde{J(w ;X,y)} = J(w ;X,y) + \alpha \left \| w \right \|_{1}

对应的梯度为:

\bigtriangledown \widetilde{J(w ;X,y)} = \bigtriangledown J(w ;X,y) + \alpha sign(w)

则类似于L2正则化的泰勒级数展开

J(w) = J(w0) + \frac{1}{2}(w-w_{0})^{T}H(w-w_{0}) + \alpha \left \| w \right \|_{1} =J(w_{0}) + \sum [H_{ii}(w_{i}-w_{0})^{2} + \alpha \left | w_{i} \right |]

 根据w_{i}求解导数可以得到:

\bigtriangledown J(w_{i})=H_{ii}(w_{i}-w_{0})+\alpha \frac{\partial \left \| w_{i} \right \|}{\partial w_{i}}=0

则可以根据wi分三种情况考虑:

wi>0:            

w_{i} = w_{0}-\frac{\alpha }{H_{ii}}

wi = 0 则直接为0 不用讨论

wi < 0:

w_{i} = w_{0}+\frac{\alpha }{H_{ii}}

由于

\frac{\alpha }{H_{ii}}>0

则观察上面大于0和小于0可以发现wi的最优解都趋向于0。所以在L1正则上会产生更稀疏的解。

L1和L2的比较

  • L1容易产生稀疏的解(观察下图在菱角处容易产生最优解为0。
  • L2保证解接近0的维度比较多,降低模型的复杂性。

 

 

dropout

模型参数过多,但是训练样本太少的时候容易出现过拟合,同时参数过多训练耗时。

dropout作为训练的一个trick提供选择使用,在每次训练的时候通过忽略一部分的特征检测器(让一部分的隐藏层为0),可以明显减少过拟合的情况。

噪声注入

噪声注入目的就是增加网络的抗噪声性能,从而增加泛化性。噪声可以在网络的不同层加入。

其实数据增强就是一种输入层加入噪声的手段,通过随机旋转,翻转。色彩变化等。

由于标签也可能存在一定的错误,可以将标签进行平滑,也是一种强化泛化的手段。

提前终止

通过观察验证集上的评估指标,如果评估指标开始降低了就可以提前停止了,是炼丹中比较简单的手段。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
校园失物招领系统管理系统按照操作主体分为管理员和用户。管理员的功能包括字典管理、论坛管理、公告信息管理、失物招领管理、失物认领管理、寻物启示管理、寻物认领管理、用户管理、管理员管理。用户的功能等。该系统采用了Mysql数据库,Java语言,Spring Boot框架等技术进行编程实现。 校园失物招领系统管理系统可以提高校园失物招领系统信息管理问题的解决效率,优化校园失物招领系统信息处理流程,保证校园失物招领系统信息数据的安全,它是一个非常可靠,非常安全的应用程序。 ,管理员权限操作的功能包括管理公告,管理校园失物招领系统信息,包括失物招领管理,培训管理,寻物启事管理,薪资管理等,可以管理公告。 失物招领管理界面,管理员在失物招领管理界面中可以对界面中显示,可以对失物招领信息的失物招领状态进行查看,可以添加新的失物招领信息等。寻物启事管理界面,管理员在寻物启事管理界面中查看寻物启事种类信息,寻物启事描述信息,新增寻物启事信息等。公告管理界面,管理员在公告管理界面中新增公告,可以删除公告。公告类型管理界面,管理员在公告类型管理界面查看公告的工作状态,可以对公告的数据进行导出,可以添加新公告的信息,可以编辑公告信息,删除公告信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值