Task01 Datawhale AI夏令营-AI极端降水预报挑战赛-CSDN博客

本文链接：https://blog.csdn.net/Su_yuan_zhi/article/details/140711656

赛事初探——降水预测模型搭建过程概述

一、机器学习&深度学习

机器学习是人工智能的一个分支，它使计算机系统利用数据来不断改进性能，而无需进行明确的编程。机器学习像一个学生, 通过给定的教材, 不断地学习教材内容，最终可以在期末考试或者综合实践中取得优异的成绩。

核心思想：通过算法和统计模型，机器学习允许计算机从经验中学习，识别模式，并做出预测或决策。

监督学习：算法从标记的训练数据中学习，这些数据包含了输入和期望的输出。
无监督学习：算法处理未标记的数据，试图找出数据中的结构和模式。

同时, 通过任务的输出是否离散, 机器学习的任务又可以划分为分类与回归

深度学习则是机器学习中神经网络算法的进阶版。神经网络算法通过模拟人脑神经元的信息传递，逐层递进, 从而形成一个机器学习模型，而深度学习有着更深的层数, 有对大规模数据(例如上百万级)更好的学习效果，这个特点使得深度学习在数据量暴增的时代脱颖而出。

神经网络示意图如下:

二、PyTorch

PyTorch是由Meta AI(Facebook)人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库，目前被广泛应用于学术界和工业界。通过pytroch, 我们可以自由的搭建神经网络模型, 使之适配我们所需要的任务。

在我们的baseline中，有几个工具类十分重要, 构建他们的过程, 都少不了pytorch的帮助

构建数据集的类Dataset
数据加载类的Dataloader
定义模型的类Model

pytorch是一个非常好用的工具, 以便我们自由的构建我们的模型、数据集，这让我们可以更方便的尝试各种网络模型或者优化方法, 同时又不需要大量的重复编程实现；另外, pytorch对GPU硬件有很好的支持, 通过GPU对我们的模型训练进行加速, 可以节约大量的时间开销。可以说, 作为一款深度学习框架, pytorch目前在学术界和工业界都有着极高的地位。

三、赛题初探

降水预测模型, 是一类时间序列相关的问题，是一个有标注的监督学习的回归任务, 是使用在时间序列上前一部分的数据来预测后一部分的数据。通俗来说, 时间序列预测模型目的在构建一个全时段可用的时间序列函数, 根据输入可以精准的得到目的的输出, 比如本次赛题中的降水预测模型.

那么我们如何去搭建一个预测模型呢?

首先我们需要做数据处理, 如果打开下载后的数据文件我们可以看到, 里面有feature特征文件和groundtruth真值文件, 因此我们首先要建立对应feature和groundtruth数据之间的关系, 这可以从baseline里看到具体的构建方法.
接着, 如果把降水预测模型看作一个函数, 我们需要尽可能找到一个最好拟合降水预测过程的函数. 这时, 对数据有着良好拟合效果的深度学习就派上了用场：通过pytorch, 我们可以搭建神经网络, 尽可能去好的在我们的数据上做拟合, 通过一系列尝试我们就得到了拟合效果最好的模型.
最后, 我们需要在测试数据上验证模型的效果.

大致通过这三步, 一个简单的预测模型就可以被我们搭建起来了。

四、Baseline代码结构

# 1. 导入需要用到的相关库
import os
import torch
import pandas as pd
import xarray as xr
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

# 2. 定义数据集
path = "" # 配置路径的设置..
class Feature:
    pass
class GT:
    pass
class mydataset(Dataset):
    def __init__(self):
        ...
    def __getitem__(self, index):
        # 获取训练数据的方法， 同时将训练数据和真值建立联系
        ...
    def __len__(self):
        #获取数据集长度的方法
        ...
my_data = mydataset() # 初始化dataset
train_loader = DataLoader(my_data, batch_size=1, shuffle=True) # 定义dataloader         
 # 3. 定义模型和损失函数
 class Model(nn.Module):
     # 模型初始化
     def __init__(self, *args):
         ...
     # 定义前向传播函数
     def forward(self, *args):
         ...
         
 # 模型具体输入输出定义
 input_chnl = ...
 # loss定义
 loss = nn.MSELoss()
 
 # 4. 模型训练
num_epochs = 1 # 定义模型训练轮数
optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # 定义优化器
# 从dataloader中取数据训练
for epoch in range(num_epochs):
    for index, (ft_item, gt_item) in enumerate(train_loader):
        ...

torch.save(model.state_dict(), "xxx.pth") # 保存模型参数

 # 5. 模型推理
model.load_state_dict(torch.load('model_weights.pth')) # 加载模型
model.eval() # 将模型置于推理状态
test_data_path = "xxx"
# 模型推理
for index, test_data_file in enumerate(os.listdir(test_data_path)):
    ...

导入库：导入了需要用到的库，包括 torch 和处理气象数据必要的 xarray，用于处理结构数据的pandas和常用操作系统库os
数据集构建：代码通过使用 class Feature 类和class GT类定义了从气象.nc文件中读取数据，同时通过class Dataset 类将训练数据和对应标签建立起对应关系, 最后使用torch.utils.data中的DataLoader定义数据加载工具, 方便我们在训练过程中获取数据。
定义模型和使用的损失函数：定义了只含有一层卷积的简单网络, 使用MSE作为损失函数, 特别注意模型的输入输出要根据赛题要求设计。
模型训练：完成优化器和训练周期的定义后, 我们就可以开始训练模型以便在数据上得到一个拟合程度最好的训练模型，模型训练时不要忘了保存模型参数文件.pth
加载训练好的模型进行预测输出：加载第4步中的训练参数以后, 需要用model.eval()将模型置于推理模式, 然后我们就有了一个拟合程度相对不错的降水预测模型, 再把测试数据输入, 即可生成预测结果。