台大李宏毅Machine Learning 2017Fall学习笔记 (12)Why Deep?
本博客整理自:
http://blog.csdn.net/xzy_thu/article/details/69808817
在比较浅层网络与深层网络时,要让“矮胖”的网络和“高瘦”的网络的参数数目相等,这样比较才公平。
即便是在深层网络参数较少的情况下,深层网络也会比浅层网络表现好。
这是因为“深层”其实相当于“模组化”,第一个隐层是最基本的分类器,第二个隐层是用第一个隐层建造的分类器,以此类推。
浅层网络确实可以表示任意函数,但是使用深层结构更有效率。
好比逻辑门电路,用两层逻辑门就可以实现任何布尔函数,但是用多层结构更简单、需要的逻辑门更少。
神经网络也是如此,单隐层网络可以表示任何连续函数,但是多层结构表示起来更简单、需要的神经元更少,所以比较不容易overfitting,或只需较少的data。
而且,深层结构可以比较有效率地使用data。
1层hidden layer与3层hidden layer(相同数目的参数),3层的效果更好。
但理论上,3层可达到的效果,1层也能达到:要在1层learn的时候,target从真实label改为3层的output,这样1层的结果会接近3层的结果。
在语音识别、图像识别和更复杂的任务上,更“深”的网络结构更容易取得好的结果。