http://arxiv.org/pdf/1605.00055v1.pdf
已被cvpr2016录用(又一神人,两篇cvpr2016录用)
为防止过拟合,cnn训练过程中通常采用模型正则化的方法,包括 weight decay, model averaging, data augmentation, 等
论文中提出了一种DisturbLabel (扰动标签)方法,该方法在每一次迭代过程中,将部分标签随机替换为错误标签。which randomly replaces a part of labels as incorrect values in each iteration.
虽然生成错误标签看上去很不可思议,但是发现DisturbLabel能有效的防止过拟合,通过隐式的平均 指数级若干用不同数据集训练得到的网络。
DisturbLabel在损失层上添加噪声,同时,DisturbLabel和Dropout一起提供互补的正则化函数。实验表明在通用图像识别数据集上得到比较好的结果。
在每个mini-batch内,随机将一部分样本的Groundtruth替换为随机类别。和Dropout配合使用,效果更佳。
修改cnn提高性能可以用以下方法:
designing deeper network structures [30](VGG)[34](Inception),
exploring or learning non-linear activation functions [5](Maxout)[21](NIN)[7](Leaky ReLU),
developing new pooling operations [42](Stochastic Pooling)[6](Fractional Max-Pooling)[18](Generalizing PoolingFunctions in Convolutional Neural Networks: Mixed, Gated,and Tree),
introducing better optimization techniques [19](DeeplySupervisedNets),
regularization techniques preventing the network from over-fitting [8](Dropout)[38](DropConnect)
【15】cross-map normalization
Local Contrast Normalization(LCN) for data preprocessing [5].
实验
1.MNIST
1)[C5(S1P0)@32-MP2(S2)]-[C5(S1P0)@64-MP2(S2)]-FC512-D0:5-FC10.
2)BigNet
[C5(S1P2)@128-MP3(S2)]-
[C3(S1P1)@128-D0:7-C3(S1P1)@256-MP3(S2)]-D0:6-
[C3(S1P1)@512]-D0:5-
[C3(S1P1)@1024-MPS(S1)]-D0:4-FC10. (if the input image size is W *W, S = W/4(向下取整)).
2.SVHN
[C5(S1P2)@32-MP3(S2)]-
[C5(S1P2)@32-MP3(S2)]-
[C5(S1P2)@64-MP3(S2)]-FC64-D0:5-FC10.