深度学习,数据是关键。
在训练一个分类器的时候,对数据的要求是class balance,即不同标签的样本量都要充足且相仿。然而,这个要求在现实应用中往往很难得到保证。
下面我以基于检测的单目标跟踪举例分析这个问题。
visual object tracking是在一段视频中跟踪一个特定目标。常见的方法有one-stage regression(比如correlation filter tracking)和two-stage classifcation tracking。这里我们只关注后者。two stages分别是首先在上一帧视频中目标的跟踪位置周围采样得到一堆target candidates(这与two-stageRCNN系列检测器的proposal生成是一样的意思);在第二个stage,就要使用训练所得的一个classfier来进行前景or背景的而分类。
训练这个第二stage中的classfier就面临这class imbalance的问题(在two-stage检测器中同理。这就可以推广为,凡是在一个estimated bounding box周围随机采集正负样本bounding box时,都会有imbalance的问题。),即严格意义上的正样本只有一个,即the estimated bounding box,而负样本则可以是这一帧图像上除了正样本bbox之外的所有bbox。为了放宽这一要求,采用bbox IoU thresholding的方法来使得那些与正样本bbox overlap足够大的bbox也被认定为是正样本呢,多么无奈的妥协。但即便是这