neruel network yricks of the trade 总结
- ### back propagation
- bp算法 + SGD梯度下降法 + betch learning;
- 输入数据正则化(均值为0,方差正则化,输入变量去相关),可以利用每张图片都减去均值来实现均值为0;
- 使用Sigmoid激活函数(收敛速度快);
- label的选择最好在sigmoid的范围内(但是caffe的label只能从0开始取);
- 权重初始化(0均值,标准差的某分布),如果要finetuning的话就没有关系了;
- 学习率的选择,增加Momentum选项,每个权重使用单独的学习率;
- RBFs适合用在低层网络,Sigmoid更适合用在高层网络中;
- 如果数据量很大,使用随机梯度下降,如果数据量小或者是回归任务,使用联合梯度下降;
EMMA
SIAT
2017.04.17