气象数据处理流程通常的数据分析流程相似,但是气象数据有本身的一些特殊性存在,比如风向和风速,降水等数据,其中风向由0-360之间的值表示,而风速的变化通常是很小的,除非碰到一些极端情况。
数据分析通常包括以下几部分:明确分析目标
数据准备和数据预处理
数据分析和可视化
数据分析报告
以上是简单的数据分析任务涉及到的分析流程,对于一些比较复杂的数据分析任务可能需要花费大量的时间进行探索性数据分析(即数据挖掘中常说的EDA)以及数学建模,并且不断的对建模效果进行评估。
下面以气象风向和风速数据为例,讲一下气象数据分析流程。此次的数据分析的任务是对多个数据源进行数据准确度评估,因此不会涉及到太复杂的分析。在进行分析评估之前需要对数据进行预处理,而数据预处理对于后续的数据分析和建模来说是至关重要的,因为大部分原始数据是不完整的,而且通常会包含很多噪声,比如:重复数据,缺失值,离散值(异常值)等问题。
本文以观测的风场数据为例,重点说一下数据预处理部分:
数据介绍
150个站点的逐小时风场数据,其中包括日期,站点名称,经度,纬度,风速和风向六个要素。这些数据是原始数据处理后保留的部分,原始数据包含更多要素,而且原始数据是按照每小时一个文件保存的,文件名按照时间命名,这部分涉及到数据批量处理,后面会说。
数据预处理
相信很多人拿到原始数据的时候,面对逐小时的大量数据文件会感到非常头疼。当进行时间序列数据的批处理时,有两种方式可以处理这种问题:
1)逐文件读取,并存储每个文件名