Why Deep
评比
长什么样的神经网络更好?
为了评判公平,model的参数要一样多。
Fat+Short vs. Thin+Tall
结果:Thin+Tall更好
The modularization is automatically learned from data
Modularization 在NPL很有用,例如:
The first stage of speech recognition
- Classification:
-
- input → \rightarrow →acoustic feature
-
- 每隔一段时间取一段语音。用classifier判断每个acoustic feature属于哪个state
-
- output → \rightarrow →state
回到Universality Theorem,尽管理论上只用一层就够了,但使用深度学习结构可以更加有效率。
正如逻辑电路一样,一层是可以做到,但使用多层结构只要更少的参数、数据,效率更高。
End-to-end Learning:只给input和output,让机器自己学每个function干什么。