deep network中深层(depth)的重要性——Methematics of Deep Learning Lecture 2 depth separation学习笔记

本文探讨深度网络为何在效果上优于浅层网络,主要聚焦于深度在网络中的作用。通过0-1损失(二分类问题)和平方损失的讨论,证明深度网络能以更高的仿射区间数指数级提升模型效果,从而降低误差。定理表明,深层网络在特定样本集上可达到0误差,而浅层网络则存在最低误差限制。
摘要由CSDN通过智能技术生成

 为什么deep network的效果要显著优于shallow network?depth在network中起到了什么样的作用?下面,对于分类问题和回归问题,具体讨论depth的作用。


一、0-1损失(二分类问题)


1. 简单的直觉(intuition)


 lecture中表达的观点很简单:为什么深层神经网络显著优于浅网络?Intuitively,shallow network 通过增加width,只能additively提高模型效果;而deep network 除了增加width,更能增加depth,multiplicatively提高模型效果。depth的影响远远大于width。该直觉参照如下两个重要观点理解:


 (具体阐述在四step1)设激活函数是t-sawtooth的,对应的神经网络是k-sawtooth的。


 观点1:k越大,函数的仿射区间数越多。那么就训练集来说,只要将k增加至一定值,函数就能完全表示出真实情况,即100%正确率。(但这样也会导致过拟合)


 观点2k=d(tm)^l。降低误差的方法是增加m、l 或激活函数的仿射区间数。其中,神经网络的深度对k的影响最大,是指数级的;其次是宽度和激活函数;最后是输入的维数,即特征数。(该排名与造成过拟合的排名是一样的)


 (讲义上这一部分是以telgarsky的一篇文章展开的,因此下面为Telgarsky Representation Benefits of Deep Feedforward Networks的学习笔记)


2. 结论概述

 

 定理1.1的结论deep networkO(k)个参数)可达到0误差,而层内节点数低于指数级(O(2^k))的shallow network 仍有不低于1/6的误差


 定理1.2的结论:某结构(2^k-ap)的样本,其需要O(k)个参数的deep network,或者仅需要常数个参数的recurrent network


 也就是说,n-ap样本(即标签按顺序为0,1,0,1,0,1,...)就误差的最小值而言,recurrent network 优于 deep network 优于 shallow network。


3. 符号说明


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值