近日,中科院自动化研究所图像与视频分析组提出了一种针对目标检测任务的大批次(large batch)快速训练的优化算法Periodical Moments Decay LAMB(PMD-LAMB,周期性矩衰减的LAMB算法)。该算法首次提出对LAMB算法[1]中的累积一阶矩和二阶矩实现周期性衰减,从根本上摆脱了滞后的历史梯度对当前网络优化的负面影响,有效加快神经网络的收敛速度。
在此基础上,本文提出了一个适用于目标检测任务的大批次目标检测训练框架LargeDet, 突破了当前检测器只能用小batch size的训练约束,第一次将目标检测任务的训练batch size扩大到1056并且保持网络的收敛性。![6f4ea02326f24294f86b0cd5f1f8c6bf.png](https://i-blog.csdnimg.cn/blog_migrate/616e50e0cda763d3dcc7e888f371a433.png)
研究背景
近年来,深度学习遇到的一大挑战就在于模型的训练时间上。比如,在一个英伟达的 M40 GPU 上用 ResNet50 去训练 ImageNet 需要 14 天;如果用一个串行程序在单核 CPU 上训练可能需要几十年才能完成,这个问题的凸显在某种程度上限制着深度学习的发展。在新的模型设计过程中,研究人员需要不断地调整模型,将调整过的模型拿去做实验,然而每次的实验结果都需要等待几天到几十天左右,这在一定程度上拉低了设计效率。
所以,在几个小时之内完成大型神经网络的训练对节省时间和提升效率具有重要意义。
而目标检测是智能视觉感知与理解的基础,目前被广泛应用在现实生活中的各个领域,如智能视频监控、自动驾驶、工业检测,无人超市等。目标检测在于检测图片中所有感兴趣类别的物体,并给出尽可能准确的包围框,从而加强了对模型设计的要求,同时也加重了模型训练的难度。
而目前,数据体量不断增大,比如,OpenImages图像集包含了超过3000万张图片和1500万个边界框(标签),那是18TB的图像数据!传统的小batch size训练方法往往要耗费至少几周的时间才能完成对一个检测模型的训练,如使用单机高配8块V100 GPU训练Res50-FPN和 Res101-FPN,分别需要3.6天和4.5天,这极大地延长了算法的迭代周期,不利于快速探索各种新技术。
因此,设计针对目标