前言
近期在实验室老师的推荐下开始了我的第一次比赛经历,由于课题与遥感影像相关,所以选择参加遥感影像地块分割(其实是数据集很有诱惑力嘻嘻),下面就这次比赛的过程和经验做个分享总结。
赛题介绍
遥感影像地块分割,旨在对遥感影像进行像素级内容分析,对遥感影像中感兴趣的类别进行提取和分类(说白了就是语义分割任务,只是对象是遥感图像)。
本次比赛分类的类别有七类,具体包括建筑、耕地、林地、水体、道路、草地和其他等七类。
训练数据集:包含140,000张分辨率为2m/pixel,尺寸为256*256的JPG图片。
A/B测试集:包含相同来源的1w/2w张测试图片。
评测阶段是使用A测试集进行实时排名,最终成绩按B测试集成绩为准,这种评测形式设计特别不错(听说DataFountain平台的比赛都是这种形式)。
由于这个赛题是百度的自主赛题,所以要求只能使用百度的深度学习框架PaddlePaddle,不能使用大家都熟知的TF和Pytorch框架。这次还使用了Paddle的分割套件PaddleSeg,着实感觉真香,所以在这里安利一下我们的国产AI框架(给百度打打广告嘻嘻)。
初赛阶段
评测指标
初赛阶段的评价指标比较简单,使用语义分割的黄金指标,平均交并比miou(具体概念不多叙述)。
数据和难点分析
从训练数据的类别占比上明显看出类别不均衡问题,如建筑、道路和草地这三类,所以如何改善类别不均衡问题是一大难点。
类别 | 标签 | 占比 % |
---|---|---|
建筑 | 0 | 2.79 |
耕地 | 1 | 50.87 |
林地 | 2 |