Kaggle竞赛记录

最新推荐文章于 2024-08-17 17:03:16 发布

u010789558

最新推荐文章于 2024-08-17 17:03:16 发布

阅读量1.6k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u010789558/article/details/76616868

版权

本文介绍了作者参加Kaggle Planet竞赛的过程，通过分析遥感图像识别问题，选择了ResNet18模型代替VGG16，以保留低级特征并减少过拟合风险。数据增强策略包括随机翻转、旋转等。应用标签平滑(label smoothing)进行正则化，优化模型性能，最终在多标签分类问题上达到了0.928的最好成绩。通过分别训练water和cultivation类别的分类器，进一步提升了整体结果。

摘要由CSDN通过智能技术生成

比赛网址Planet：Understanding the Amazon from Space这个比赛是一个遥感图像识别，但是主办方也提供了jpg图片，由于对遥感图像识别不熟悉，而且遥感图像数据太大不好处理，所以本次比赛使用的是jpg图片数据。这个比赛是一个多标签的分类问题，一共有17个类别，每张图片可以有一个或者是几个类别标签，对于多标签任务一个简单的处理是把问题分成17个二分类问题，但是这需要训练17个网络，再加上调参的时间，可能耗费的时间很多，可以把这17个网络合成为一个网络，输出层为17，相当于共享除了最后一层的所有参数，大幅度减少了参数，但是也增加了欠拟合的风险，损失函数使用交叉熵。
这里写图片描述

刚开始使用的是vgg16，经过调参最终的结果只有0.91，考虑到图片中并没有高级的语义特征（高级语义特征可以看做是低级特征比如颜色，纹理，边缘特征的组合，人类识别图像一般都依赖高级语义特征），分类更多的应该是依赖低级的特征，所以我们需要在网络的前向传播中保留下来低级特征，而vgg是很难做到这点的，另一方面，resnet由于有恒等映射，所以可以在前向传播中很好的保留低级特征，并且resnet的shortcut也可以看做是梯度反向传播的高速公路，避免了梯度消失的问题，网络更好训练，另外resnet使用了BN，更容易训练，并且兼有正则作用(BN在每一个mini-batch计算时使用的是mini-batch的数据而不是full-batch数据，相当于引入了统计误差，而方差很小的随机误差可以看做是增加局部不变先验也就是正则作用)，将模型换为resnet18后结果突破0.92

由于图片并没有高级语义特征所以在数据增强中增加了random vertical flip，
random transpose 以及random rotate, 另一方面本次比赛问题本身的难度很大，因为正类和负类之间的差别并不大，模型想要正确的分类就需要更大的权值，而更大的权值往往造成过拟合，这会造成调参过程中很难找到过拟合和欠拟合的平衡点，所以我去掉了比较强的正则化random size and crop，random size and crop 首先按原图片的长宽比例随机缩放图片到一个区间，再在图片上随机裁剪出与模型的输入大小相符的图片，在resize时使用的插值方法会引入误差，并且crop也会因为丢掉一部分图片的原始信息而引入误差

在去掉random resize and crop后模型更趋向于过拟合，所以我使用了另一种正则化技术label smoothing，label smoothing是对标签的平滑，把原来的one-hot变成一种soft-target，one-hot的target需要模型百分之百的确定分类结果，因为只有一个类别的标签概率是1，其他类别的标签概率均为0，
label smoothing把1减小并将减小的概率分摊到其他的类别标签上，写成公式如下:
$smoothed\_label = label\times(1-factor)+\frac{factor}{num\_classes}$
label smoothing有两个作用，第一是使模型不会过于自信，因为某些分类问题类别之间的差异不大，有时候并不能百分之百的确定分类的结果(比如美短和英短)，这时候如果强制模型学习太过自信的结果往往造成权值过大进而造成过拟合，第二就是限制权值的增加，下面以二分类为例说明
$Loss = \sum_{i=0}^Nt_i\log{y_i} + (1-t_i)\log({1-y_i})$