为什么deep network的效果要显著优于shallow network?depth在network中起到了什么样的作用?下面,对于分类问题和回归问题,具体讨论depth的作用。
一、0-1损失(二分类问题)
1. 简单的直觉(intuition)
lecture中表达的观点很简单:为什么深层神经网络显著优于浅网络?Intuitively,shallow network 通过增加width,只能additively提高模型效果;而deep network 除了增加width,更能增加depth,multiplicatively提高模型效果。depth的影响远远大于width。该直觉参照如下两个重要观点理解:
(具体阐述在四step1)设激活函数是t-sawtooth的,对应的神经网络是k-sawtooth的。
观点1:k越大,函数的仿射区间数越多。那么就训练集来说,只要将k增加至一定值,函数就能完全表示出真实情况,即100%正确率。(但这样也会导致过拟合)
观点2:k=d(tm)^l。降低误差的方法是增加m、l 或激活函数的仿射区间数。其中,神经网络的深度对k的影响最大,是指数级的;其次是宽度和激活函数;最后是输入的维数,即特征数。(该排名与造成过拟合的排名是一样的)
(讲义上这一部分是以telgarsky的一篇文章展开的,因此下面为Telgarsky Representation Benefits of Deep Feedforward Networks的学习笔记)
2. 结论概述
定理1.1的结论:deep network(O(k)个参数)可达到0误差,而层内节点数低于指数级(O(2^k))的shallow network 仍有不低于1/6的误差。
定理1.2的结论:某结构(2^k-ap)的样本,其需要O(k)个参数的deep network,或者仅需要常数个参数的recurrent network。
也就是说,n-ap样本(即标签按顺序为0,1,0,1,0,1,...)就误差的最小值而言,recurrent network 优于 deep network 优于 shallow network。
3. 符号说明