Datawhale AI夏令营 AI极端降水预报 Task1

最新推荐文章于 2024-08-06 22:00:00 发布

即离823

最新推荐文章于 2024-08-06 22:00:00 发布

阅读量770

点赞数 17

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_63998773/article/details/140757226

版权

深度学习

深度学习（Deep Learning）是一种机器学习（Machine Learning）的分支，利用多层神经网络来处理和分析复杂的数据。

深度学习的方法分类：

监督学习（Supervised Learning）：
- 分类（Classification）：用于将数据分到不同的类别。例如，图像分类（识别图片是猫还是狗）、文本分类（判断邮件是垃圾邮件还是正常邮件）。
- 回归（Regression）：用于预测连续值。例如，预测房价、股票价格等。
无监督学习（Unsupervised Learning）：
- 聚类（Clustering）：用于将数据分成不同的组。例如，客户分群、图像分割等。
- 降维（Dimensionality Reduction）：用于减少数据的维度，同时保留尽可能多的信息。例如，主成分分析（PCA）、t-SNE 等。
半监督学习（Semi-Supervised Learning）：结合少量标记数据和大量未标记数据进行训练。例如，在只有少量标记样本时训练图像分类模型。
强化学习（Reinforcement Learning）：通过与环境的交互来学习决策策略。例如，AlphaGo 下围棋、自动驾驶等。
生成模型（Generative Models）：
- 生成对抗网络（GANs, Generative Adversarial Networks）：用于生成与真实数据相似的假数据。例如，生成逼真的图像、视频等。
- 变分自编码器（VAEs, Variational Autoencoders）：用于生成数据并进行数据建模。
自监督学习（Self-Supervised Learning）：利用数据本身的信息进行训练，无需外部标记。例如，通过预测数据的一部分来训练模型，应用于自然语言处理中的 BERT、GPT 等模型。

赛题AI极端降水预报属于监督学习的回归模型，在这里我们重点关注这个。基于时间序列的前一部分的数据来预测后一部分的数据。根据给定时段的基于伏羲气象大模型的气象要素，给出对应的AI极端降水预测。

赛题

1.训练数据：2019-2021年的ft（气象要素）和对应的gt（真值）。

历史时段伏羲气象大模型未来72小时逐小时的多个气象要素以及对应时段的ERA5降水数据。（有标签标记的数据）

2.预测

输入：给定时段的基于伏羲气象大模型要素作为输入

输出：AI极端降水预测

feature文件结构

GT文件结构

test文件结构

.pt文件为<class 'torch.Tensor'>类型，大小torch.Size([1, 72, 24, 57, 81])

问题：

1.我们拿什么数据去预测未来72小时的降水量？

当前时刻的1个样本点（即24个气象要素）？相对于当前时刻，过去的72小时的72个样本点!?

2.样本数据集例如20210101-00文件夹下的72小时气象要素数据是fuxi实测的还是递归得到的？

毕竟如果是递归得到的，有较大误差。

如果实测的话，文件就会有重复。

倾向认为后面部分为模型的迭代预测。

3.fuxi的时间分辨率是1h还是6h？

赛题里面说的1h，论文好像是说6h。

脑洞大开

在baseline的基础上, 你会调整哪些部分, 以获取到更高的分数？

训练数据量可以增大，毕竟目前只使用4个样本点。

深度学习模型可以增大，baseline仅使用单层卷积神经网络。
baseline中数据处理部分, 是否遇到了某些问题？你认为可以在哪里做一下提升和改进？

看到有人讨论说数据集gt存在缺失，部分样本无gt。样本和gt怎么对应起来，如上面两个问题，目前还是一头雾水。之后深入研究一下。

进行数据清洗和找准数据样本和gt的匹配是关键！
模型训练部分，是否有哪些不合理或者需要提升的地方, 如果你来实现这一部分, 你会对哪里改进？

notebook老是打不开（打开半天）

训练中规中矩，可以适当提高训练轮数。

即离823

关注

17
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营 AI极端降水预报 Task1

深度学习（Deep Learning）是一种机器学习（Machine Learning）的分支，利用多层神经网络来处理和分析复杂的数据。例如，通过预测数据的一部分来训练模型，应用于自然语言处理中的 BERT、GPT 等模型。基于时间序列的前一部分的数据来预测后一部分的数据。2.样本数据集例如20210101-00文件夹下的72小时气象要素数据是fuxi实测的还是递归得到的？：用于减少数据的维度，同时保留尽可能多的信息。1.训练数据：2019-2021年的ft（气象要素）和对应的gt（真值）。
复制链接

扫一扫