机器学习笔记5
Backpropogation
链式法则:
以一个神经元为例:
Forwardpass:偏微分就等于input
Backward pass:
怎么算这两项??
情况一:已经是output
情况二:不是输出层
递归求解:
Summary:
Tips for deeplearning
recipe of deep learning
Overfitting:training好的情况下testing不好
层数高效果不一定好:
可能原因:
梯度消失
靠近输入地方参数更新慢(还处于random状态),靠近输出参数更新快(可能已经收敛)
使得参数loss下降很慢
出现原因:sigmoid function:
Large input——》small output
解决:换sigmoid为ReLU
虽然ReLU是线性的,但是整个网络是非线性的
ReLU-variant
Maxout
会不会出现小的z没有被训练到的情况??
事实上不会:input不一样时候,被train的z是不一样的,所以都会被train
优化器的Review:
Early Stopping
Dropout
因为有的nueron被所有网络都没有dropout,因此是用所有网络train的。
Why deep?
层数多还是更宽?
Modularization
deep learning其实就是自动地进行了Modularization:
所以deep learning 需要更少的data?
用一个隐层就可以表示任意函数,但是:
两层逻辑闸可以表示任何逻辑
端到端的学习:
非端到端的方法:深度学习只处理一个环节
隐层做了什么?