- 博客(5)
- 收藏
- 关注
原创 Control Batch Size and Learning Rate
Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence1 Introduction本论文给出了一种深层神经网络训练策略的理论和经验证明:在使用SGD训练深度神经网络时,要控制批量不太大,学习速率不钛大,以使网络具有较好的泛化性能。该策略为在训练误差较小的情况下帮助神...
2019-12-31 13:07:37 427
原创 ranger 以及Optimizer相关实现
以ssd的train.py为例这一行将模型net的parameters导入优化器中, 还定义了其他参数类Optimizer的__init__:其中defaultdict:即使给了错误的索引,也会返回一个默认值,不会报错将导入的parameters放入param_groups的param中这一行利用param.grad对param进行更新import mathimport tor...
2019-12-12 16:40:50 1408
原创 DenseNet实现
关于Dropout:每个denseblock中的小block后都有一个dropout,查看源码试图搞清楚这里dropout的实现方法,但没有查询到dropout的最终实现,在_VF中。为了减少GPU显存的使用,这里将第一个bn进行了checkpoint,即不储存反向传播的输出,在有需要时重新计算,这个操作以较小的时间开销换取了大量的显存空间。kaiming初始化实现:...
2019-12-02 11:08:16 243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人