深度学习
深度学习(Deep Learning)是一种机器学习(Machine Learning)的分支,利用多层神经网络来处理和分析复杂的数据。
深度学习的方法分类:
-
监督学习(Supervised Learning):
-
分类(Classification):用于将数据分到不同的类别。例如,图像分类(识别图片是猫还是狗)、文本分类(判断邮件是垃圾邮件还是正常邮件)。
-
回归(Regression):用于预测连续值。例如,预测房价、股票价格等。
-
-
无监督学习(Unsupervised Learning):
-
聚类(Clustering):用于将数据分成不同的组。例如,客户分群、图像分割等。
-
降维(Dimensionality Reduction):用于减少数据的维度,同时保留尽可能多的信息。例如,主成分分析(PCA)、t-SNE 等。
-
-
半监督学习(Semi-Supervised Learning):结合少量标记数据和大量未标记数据进行训练。例如,在只有少量标记样本时训练图像分类模型。
-
强化学习(Reinforcement Learning):通过与环境的交互来学习决策策略。例如,AlphaGo 下围棋、自动驾驶等。
-
生成模型(Generative Models):
-
生成对抗网络(GANs, Generative Adversarial Networks):用于生成与真实数据相似的假数据。例如,生成逼真的图像、视频等。
-
变分自编码器(VAEs, Variational Autoencoders):用于生成数据并进行数据建模。
-
-
自监督学习(Self-Supervised Learning):利用数据本身的信息进行训练,无需外部标记。例如,通过预测数据的一部分来训练模型,应用于自然语言处理中的 BERT、GPT 等模型。
赛题AI极端降水预报属于监督学习的回归模型,在这里我们重点关注这个。基于时间序列的前一部分的数据来预测后一部分的数据。根据给定时段的基于伏羲气象大模型的气象要素,给出对应的AI极端降水预测。
赛题
1.训练数据:2019-2021年的ft(气象要素)和对应的gt(真值)。
历史时段伏羲气象大模型未来72小时逐小时的多个气象要素以及对应时段的ERA5降水数据。(有标签标记的数据)
2.预测
输入:给定时段的基于伏羲气象大模型要素作为输入
输出:AI极端降水预测
feature文件结构
GT文件结构
test文件结构
.pt文件为<class 'torch.Tensor'>类型,大小torch.Size([1, 72, 24, 57, 81])
问题:
1.我们拿什么数据去预测未来72小时的降水量?
当前时刻的1个样本点(即24个气象要素)?相对于当前时刻,过去的72小时的72个样本点!?
2.样本数据集例如20210101-00文件夹下的72小时气象要素数据是fuxi实测的还是递归得到的?
毕竟如果是递归得到的,有较大误差。
如果实测的话,文件就会有重复。
倾向认为后面部分为模型的迭代预测。
3.fuxi的时间分辨率是1h还是6h?
赛题里面说的1h,论文好像是说6h。
脑洞大开
-
在baseline的基础上, 你会调整哪些部分, 以获取到更高的分数?
训练数据量可以增大,毕竟目前只使用4个样本点。
深度学习模型可以增大,baseline仅使用单层卷积神经网络。
-
baseline中数据处理部分, 是否遇到了某些问题?你认为可以在哪里做一下提升和改进?
看到有人讨论说数据集gt存在缺失,部分样本无gt。样本和gt怎么对应起来,如上面两个问题,目前还是一头雾水。之后深入研究一下。
进行数据清洗和找准数据样本和gt的匹配是关键!
-
模型训练部分,是否有哪些不合理或者需要提升的地方, 如果你来实现这一部分, 你会对哪里改进?
notebook老是打不开(打开半天)
训练中规中矩,可以适当提高训练轮数。