一、Deep更有效率
1、90年代的Universality Theorem指出任何连续函数都可以用一层隐藏层表示出来(可能需要用到较多的神经元);然而,实际的应用表明,Deep层更有效率。
2、对于下面的例子
图1直接使用一层网络对长发女、长发男、短发女、短发男四种类型进行分类;
图2则对分类进行模块化,一层先做两个基本的分类单元,男与女、长发与短发,第二层再做最终分类;
图中可以看出,一层网络可能会因为长发男的样本限制而使的模型分类并不理想,而多层网络在第一层的基本分类中能够维持样本数量的平衡而使模型更加有效和robust。
3、类比于逻辑电路
两层逻辑门就可以表示全部的网络,但是多层的逻辑门可以更容易设计复杂的功能