技术是随着问题而产生的,如果不从要解决问题的角度出发应用技术,最终会演化为技术堆砌,并由于每个技术点的副作用进而引起新的问题。
以问题驱动的方式总结常用的模型训练方法和这些训练方法要解决的问题。
这些训练方法一般在论文中都能找到这些较为常用的配置,将分为两个部分,一个部分是CNN,一个部分是RNN。
共性的部分一般放在CNN部分.
1 CNN
1.1 weight decay
解决问题:This prevents the weights from growing too large, and can be seen as gradient descent on a quadratic regularization term 【防止权重过大,起到类似正则化项作用】
https://metacademy.org/graphs/concepts/weight_decay_neural_networks
如何观察:观察weight最终值和整体分布
常用值:
1.2 momentum
解决问题:In this case, you can easily get stuck in a local minima and the algorithm may think you reach the global minima leading to sub-optimal results. To avoid this situation, we use a momentum term in the objective function, which is a value between 0 and 1 that increases the size of the step