- 深度学习的目标:让机器能解决对人来说轻而易举的目标
- 对这样的目标,存在一种对数据的假设:高维可微分稀疏流型
- 要拟合这样的高维数据,肯定模型是非线性的,所以使用一种方法在模型中引入非线性:非线性激活函数
- 非线性激活单元和通用DNN模型会让参数的搜索空间太大,带来计算困难,为了降低问题复杂性:正则,如限定参数在高斯分布上,Batch Norm
- 解决优化问题后,就可以计算了,计算方法:梯度下降
- 对于梯度下降,如果两个单元的值相同,那么会产生同样的激活值和梯度,出现共模失效:引入随机性,如Xavier init,Dropout
- 在使用方法的层面上,为了让模型用训练集能最好地拟合真实分布(泛化),引入训练技术:early stopping,CV
- 在很多问题上,这样的方法仍然不够好,为了引入对应领域的先验知识:重新设计模型结构,如语音中有时序信息,所以需要设计LSTM
- 为了解决更复杂的问题,把网络以某种形式组织起来:GAN,encoder-decoder,DQN,Wide&Deep,迁移学习