一、使用shell脚本,从NCDC的ftp服务器上下载所有数据。以年份命名文件夹中存储该年份的数据,包括N个记录文件和一个包含该年份所有数据的压缩包
#!/bin/bash
for i in {1901..2015}
do
cd /root/桌面/ncdc1
mkdir $i
cd ./$i
wget --execute robots=off -r -np -nH --cut-dirs=4 -R index.html* ftp://ftp.ncdc.noaa.gov/pub/data/gsod/$i/
done
二、使用shell脚本,从NCDC的ftp服务器上下载 每年天气数据的压缩包(1901-2015)
#!/bin/bash
for i in {1901..2015}
do
cd /root/桌面/ncdc2
wget --execute robots=off -r -np -nH --cut-dirs=4 -A tar ftp://ftp.ncdc.noaa.gov/pub/data/gsod/$i/
done
P.S.
1)1901-1928年份数据的有效性有待商榷;2)自1929年,每年的数据量都有所增长;
3)用于Hadoop的学习,但内容格式与《Hadoop权威指南(第三版)》上的例子略有不同;
4)ftp地址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/