1. 选择合适的模型架构
模型的结构(层数和宽度),参数配置,尽量用已经有效的模型
2. 选择优化器
针对具体的问题,从选择常用的优化器开始,进行比较
3. 选择BatchSize
1). Batch Size决定训练速度,但是不影响验证集性能
2). 通常选择最大可支持的Bacth Size
3). 增加Batch Size减少训练时间,但是资源消耗不一定变化
4). 任意Batch Size都可以得到相同的最终性能(当超参数调整好并训练步数足够)
模型的结构(层数和宽度),参数配置,尽量用已经有效的模型
针对具体的问题,从选择常用的优化器开始,进行比较
1). Batch Size决定训练速度,但是不影响验证集性能
2). 通常选择最大可支持的Bacth Size
3). 增加Batch Size减少训练时间,但是资源消耗不一定变化
4). 任意Batch Size都可以得到相同的最终性能(当超参数调整好并训练步数足够)