AI Challenger 2018 农作物病害细粒度分类-----Pytorch 深度学习实战

最新推荐文章于 2024-08-19 11:46:55 发布

1只小包子

最新推荐文章于 2024-08-19 11:46:55 发布

阅读量2.2w

点赞数 38

分类专栏：深度学习文章标签： AI Challenger 细粒度分类模型融合 CNN 机器学习实战

本文链接：https://blog.csdn.net/a940902940902/article/details/83993234

版权

AI Challenger 2018 农作物病害细粒度分类

前言

本文以AI Challenger 2018 农作物病害细粒度分类为例，比赛详细信息和数据见文末，基于Pytorch 0.4.0 构建项目其中模型训练部分是在jupyter中完成因此没有将整个训练过程封装为可执行的py文件，做这个比赛的初衷是熟悉一下pytorch，还有就是了解一下打比赛的整个流程，在过程中排名一度还不错让自己产生了可能能拿奖的错觉果然还是年轻啊第一次打比赛还想拿奖最终acc 在0.883 如果有好心的大佬能够告诉我这个怎么调参调到0.89以上十分感谢

不过通过这次比赛让自己学习到了很多编程的技巧熟悉了流程收获还是很大的有想要一起打比赛的小伙伴可以组队呀。下面就将这次比赛的整个流程的收获做一下总结，方便日后参考，同时也能够作为一份真正的实战指导，虽然做的菜但总归有可以借鉴的地方.

代码github地址

代码组织结构

在使用pytroch过程中可以将整个流程分为如下部分：数据分析过程（EDA），参数定义，数据加载过程，数据处理 Data Augmentation和TTA（Test Time Augmentation），模型定义，训练过程定义，验证过程定义，测试过程定义，log定义与训练过程可视化，模型融合。大致可以分为上述部分，每一部分在下文中做具体展开。

整体代码结构如下：

• code
  ▫CropModel.py
  ▫CropDataSet.py
  ▫utils.py 
   ......
• config
   ▫config.py
• data
  ▫trainData
  ▫validationData
  ▫testData
• model
  ▫ResNet50
    ▫2018-11-03_acc.pth
• feature
  ▫ ResNet50
      ▫ val_all_prediction.pth
      ▫ val_crop_prediction.pth
      ▫ test_all_prediction.pth
      ......
• log
    ▫ 2018-11-01
           ▫ ResNet50
                  ▫ tensorBoardX
                  ▫ logtxt
           ▫ ResNet 101
     ▫ 2018-11-02
    
• submision：
        ▫ 2018-11-02

在这次比赛中我发现良好的代码组织以及模型组织是必不可少的，只有这样才能更好的实现源源不断的idea的修改，使得代码不至于不可控，上述代码组织结构是这次比赛摸索出来的，肯定还有不好的地方需要之后实践中不断修改。
code : 存放项目代码其中CropModel .py 将项目使用到的所有模型进行封装 ,CropDataSet .py 存放数据加载类以及不同的transform的方法，utils存放各种工具方法
data：在data中下分三个文件夹 trainData ,testData,validationData 每个文件夹下面存放着对应的annotation.json以及img文件夹保存图像
model：model用来保存不同训练模型结果以模型名称命名，在每个文件夹下以日期+acc.pth 保留当日最好模型，日期+_loss.pth 保留当日最好loss模型。在这里其实可以改进model的保存方式可以每一轮（或者固定周期）都将模型保存下来然后把最好的模型另外创建一个和model完全一致结构的checkpoint文件夹专门保存最优模型
feature：feature文件夹存储TTA之后生成的结果（之所以称为feature 是在stacking的时候第二层的算法是将第一次算法结果作为特征的所以这里就使用feature来命名这些TTA的结果）
log：存储tensorboardX生成的训练过程图以及自定义的训练过程中的log输出。在这次比赛中没有存储log输出而是使用jupyter 直接打印出来这样做是有风险的不利于log的回溯同时如果jupyter断开与服务器的连接那么log信息就会丢失
submission：存储提交结果

完整流程解析

EDA

对于该问题EDA相对而言较为简单可以分为如下几个步骤
1.将annotation转化为pandas格式
2.查询trainData validateData testData中是否有缺失值存在
3.生成各类样本数量分布图并按样本数量大小排序
4. 展示若干样本图像

首先通过使用matplotlib 和pandas 对数据进行简单的统计和可视化
注 matplotlib 可能会出现中文注解乱码的问题可以通过下述代码解决

import matplotlib
matplotlib.rcParams[u'font.sans-serif'] = ['simhei']
matplotlib.rcParams['axes.unicode_minus'] = False

将json文件转化为pandas

with open("../data/AgriculturalDisease_trainingset/AgriculturalDisease_train_annotations.json") as datafile1:
    trainDataFram=pd.read_json(datafile1,orient='records')
with open("../data/AgriculturalDisease_validationset/AgriculturalDisease_validation_annotations.json") as datafile2: #first check if it's a valid json file or not
    validateDataFram =pd.read_json(datafile2,orient='records')

查看数据中Null的分布情况：

total=trainDataFram.isnull().sum().sort_values(ascending=False)
percent=(trainDataFram.isnull().sum())/(trainDataFram.isnull().count()).sort_values(ascending = False)
missing_validation_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'],sort=False)
missing_validation_data.head()

在这里插入图片描述

查看数据分布情况

dataDistribute=trainDataFram.groupby(by=['disease_class']).size()
plt.figure(figsize=(50,20),dpi=100)
plt.xticks(range(len(dataDistribute)),dataDistribution.index.tolist(),fontsize=40)
plt.yticks(fontsize=40)
bar=plt.bar(dataDistribution.index.tolist(), dataDistribute.tolist(),width=0.7)
 
for b in bar:
    h=b.get_height()
    plt.text(b.get_x()+b.get_width()/2,h,int(h),ha='center',fontsize=30)
plt.show()

在这里插入图片描述

validate data
在这里插入图片描述

由此可见在训练过程中可以将44,45 label删除提升正确率

根据数据量的大小排序

trainDataFram['disease_class'].value_counts().plot(kind='bar',figsize=(60,30),fontsize =60,title="Number of Training Examples Versus Class").title.set_size(80)

在这里插入图片描述

按大小排列同时在柱状图上增加数据量大小

dataDistribute=trainDataFram['disease_class'].value_counts()
plt.figure(figsize=(50,20),dpi=100)
plt.xticks(range(len(dataDistribute)),dataDistribute.index.tolist(),fontsize=40) #第一个参数是在哪些位置需要放置坐标值  第二个参数是放置的坐标值大小
plt.yticks(fontsize=40)
bar=plt.bar(range(len(dataDistribute)),dataDistribute.tolist(),width=0.6)
for b in bar:
    h=b.get_height()
    plt.text(b.get_x()+b.get_width()/2,h,int(h),ha='center',fontsize=25)
plt.show()

在这里插入图片描述