赛题理解
首先这个题目一拿到就感觉是基本的目标检测了,典型的ocr问题。所以自然想到目标检测的一些模型,以及ocr问题种的一些模型解决方案。baseline是基于pytorch的,所幸这方面pytorch的资源也比较丰富,唯一需要解决的就是机器的问题。
数据理解
统计json文件中的信息,发现label主要为数字0-9共十个数字,计数发现除了1出现比较多以外,其他数字的数量比较平均不存在不平衡的现象。
观察图片发现字体变化不大,大多都比较扭曲但都有类似的图片存在。
框的长宽比范围比较广,从0.5到29,尺度大小也比较大,从几个像素到300+像素,因此需要考虑到不同尺度的问题。
而且图片大小不一致也需要进行处理。因此要考虑不同感受尺度的结果。
后期计划
由于自己机器训练不了,所以第一步使用学校的超算,看能否进行一些计算。
尝试一些2stage的方法,加入一些改进和其他比赛方案的经验。感觉这个数据有很多比较困难的样例。所以可以考虑将一些预测准确的加入训练集,进一步增强,虽然可能没啥效果哈。