任务描述
知识点:
- 使用FTP下载NCDC气象数据
重 点:
- 使用FTP下载NCDC气象数据
内 容:
- 准备NCDC气象数据
任务指导
1. 数据集介绍
数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。 数据来自NCDC的公开FTP服务器 ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/ ,本项目只选取了中国区域(含港澳台)的观测站点数据,按年打包。
- 时间范围:1942年至今。
- 时间精度:近年的数据大多为3小时数据,少量站点有1小时数据。
- 站点数量:近年为400多个。
- 气象要素:气温、气压、露点、风向风速、云量、降水量。
2. 使用FTP下载NCDC气象数据。
- 使用FTP下载NCDC气象数据,本文所使用的FTP工具为FlashFXP,也可以使用其他FTP工具;
- NCDC的FTP下载地址:ftp.ncdc.noaa.gov;
- 默认远程路径为:/pub/data;
- 登录方式:匿名登录;
- 连接类型:FTP。
- 以FlashFXP工具为例:
任务实现
1. 数据集介绍
数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。 数据来自NCDC的公开FTP服务器 ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/ ,本项目只选取了中国区域(含港澳台)的观测站点数据,按年打包。
- 时间范围:1942年至今。
- 时间精度:近年的数据大多为3小时数据,少量站点有1小时数据。
- 站点数量:近年为400多个。
- 气象要素:气温、气压、露点、风向风速、云量、降水量。
按年打包文件是几百个站点数据文件,每个文件是单个站点全年的数据。文件名如“552990-99999-2000.gz”,第1段数字是站点ID,第3段数字是年份。数据格式ISD-Lite,是简化的ISD(Integrated Surface Data)数据。每列固定宽度,非常易于程序解析,也可直接当做“空格分隔的CSV”使用。具体每列的含义及数据格式见isd-lite-format.txt,有详细解释。时间是GMT时间。
2. 下载NCDC气象数据(为大家方便使用,2021-2022年实验数据已下载到master机器中的/usr/local/data/ncdc/isd-lite目录中,此步骤仅供参考)
1)使用FTP下载NCDC气象数据,本文所使用的FTP工具为FlashFXP(该工具安装包已存放在Windows机器的C:\software目录下,请自行安装),配置信息如下,效果如下图所示。
- NCDC的FTP下载地址:ftp.ncdc.noaa.gov;
- 默认远程路径为:/pub/data;
- 登录方式:匿名登录;
- 连接类型:FTP。
图1 ftp工具登录界面
图2 ftp目录
2)本项目只选取中国区域(含港澳台)的观测站点数据,站点ID范围45007~59948,以2022年的数据为例:
图3 ftp下载过程
3)这里只下载2021和2022年的中国的气象数据即可。我们以这两年的数据处理为例,介绍数据的预处理过程,然后学生可以自行处理其他年份的数据。
4)在后续的数据分析、预测和可视化任务中使用的数据,是由老师提供已经处理好的2000年到2022年的22年间的数据。
上一个任务下一个任务