为什么同样多参数的情况下,网络变深比变宽效果更好?
模组化
如下图,一个复杂的分类可以分解为多个简单的分类:
当我们用DL的时候,其实相比于单层神经网络需要的数据是更少的。
普遍性定理
但是这个理论没有告诉我们的是,它只告诉我们可能性,但是它没有告诉我们说要做到这件事情到底有多有效率。没错,你只要有够多的参数,hidden layer够宽,你就可以描述任何的function。但是这个理论没有告诉我们的是,我们只用一个hidde layer来描述function的时候,它其实是没有效率的。当你有more layer(high structure)你用这种方式来描述你的function的时候,它是比较有效率的。
总结
这节课总体来讲就是举了很多例子,比如剪窗花、逻辑电路。说明深度网