一、Modularization
1、Universality Theorem
2、“Thin + Tall” v.s. “Fat + Short”
3、“Fat + Short” 模式下
由于有些分类下的数据比较少, “Fat + Short” 模型对数据少的样本的分类训练的不好
4、“Thin + Tall” 模式下
将特征分解,再组合。
5、多层Layer的作用
- 中间hidden layer 的作用类似于将特征数据值从“低维” → t r a n s f o r m e r \xrightarrow{transformer} transformer“高维”,充分挖掘“特征数据值”在各个维度中的特性。
带有非线性激活函数的Layer层数越多,则模型能模拟的函数的复杂度越高
二、End-to-End Learning
1、End-to-End Learning:语音识别
2、End-to-End Learning:图像识别
参考资料:
A visual proof that neural nets can compute any function
Deep Learning: Theoretical Motivations (Yoshua Bengio)
Why Deep Learning Works: Perspectives from Theoretical Chemistry