Matlab:中国地面气象日值数据集(V3.0)提取所需省份全部站点数据
首先,非常遗憾这个数据集已经下架了!!!>_<!!!
代码结构:
(1)Input:8个变量,每年12个月,每年96个txt文件;
(2)目标:多年循环,提取所需站点;
(3)Output:一个子变量一个表,全年数据放入一个sheet中,不同年份放入不同sheet中
输入数据命名基本为默认:
上核心代码:
%%%%
% @LastEditors : 喵小鱼~
% @Date : 2021-12-01 20:00
% @LastEditTime : 2021-12-07 22:00
% @Description : 全系列标准化气象数据的处理txt2excel;注意对每个输出结果进行检查
% @Objective : 按类输出所需省份全部年份n个气象站点数据
%%
clear;
clc;
%% 0. 前期输入输出&定义
% 输入txt根路径
txt_Path='D:\科研数据\metadata\2010_2017\';
% 输出xls根路径
xls_Path='D:\科研数据\metadata\xls2010_2017\';
% 预分配中间变量内存,列数根据元数据类别数目确定(注意按需修改)
A11=zeros(68,11);%3 RHU相对湿度;5 EVP蒸发;
% 按年读取全部txt文件
% year by year
for yy = 2010:2017
year = num2str(yy);
txt_file=fullfile(txt_Path,year,'\');
txt_list=dir(strcat(txt_file,'*.txt'));%列出路径下所有txt文件
% 判别平闰年,确定月天数,计算doy
if (mod(yy,4)==0 && mod(yy,100)~=0 || mod(yy,400)==0)
mon2day=[31 29 31 30 31 30 31 31 30 31 30 31]; % 闰年各月天数
else
mon2day=[31 28 31 30 31 30 31 31 30 31 30 31]; % 平年各月天数
end
doy=sum(mon2day);
% 根据doy预分配输出数据和表头(注意按需修改)
evp_d20=zeros(66,4+doy);
evp_E601=zeros(66,4+doy);
title{1,1}='station';
title{1,2}='lat';
title{1,3}='lon';
title{1,4}='altitude';
for dd=1:doy
title{1,4+dd}=strcat('doy',year,num2str(dd,'%03d'));
end
%% 1. 集成EVP结果
% month by month
i=1;
m=1;%第1个变量,排序根据txt_list来确定
m1=1+12*(m-1);%每个变量的第1个txt
m0=12*(m-1);
m12=12*m;%每个变量的第12个txt
for mm=m1:m12
evp_name=txt_list(mm).name;
evp_mm=load(fullfile(txt_file,evp_name));%原始txt文件读成表
n=1;
ss_1=53*mon2day(mm-m0)+1;%51053第1天
ss_2=(53+68-1)*mon2day(mm-m0)+1;%52313第1天
% day by day
for dm=0:(mon2day(mm-m0)-1)%1个月每天的循环
for ss=(ss_1+dm):mon2day(mm-m0):(ss_2+dm)%68个站点提取同一天
A11(n,:)=evp_mm(ss,:);
n=n+1;
end
A11(61,:)=[];% delete 51886 剔除不需要的站点
A11(66,:)=[];% delete 52267 注意上一个删除后位次67需减去1
evp_d20(:,1:3)=A11(1:66,1:3);
evp_E601(:,1:3)=A11(1:66,1:3);
evp_d20(:,4)=A11(1:66,4)*0.1;%altitude,0.1米
evp_E601(:,4)=A11(1:66,4)*0.1;%altitude,0.1米
evp_d20(:,4+i)=A11(:,8)*0.1;%小型蒸发量,0.1mm
evp_E601(:,4+i)=A11(:,9)*0.1;%大型蒸发量,0.1mm
i=i+1;
clear A11;
n=1;
end
end
% 经纬单位(度、分),转换为度
lat_int=floor(evp_d20(:,2)*0.01);
lat_decimal=(evp_d20(:,2)*0.01-lat_int).*100/60;
lat=lat_int+lat_decimal;
lon_int=floor(evp_d20(:,3)*0.01);
lon_decimal=(evp_d20(:,3)*0.01-lon_int).*100/60;
lon=lon_int+lon_decimal;
evp_d20(:,2)=lat;
evp_E601(:,2)=lat;
evp_d20(:,3)=lon;
evp_E601(:,3)=lon;
% 质量控制,剔除异常值(matlab固有bug,查找替换不完全,采用excel查找替换)
% evp_d20(evp_d20(:,5:end)==evp_d20(1,274))=nan;
% % evp_d20(evp_d20(:,5:end)>32765)=nan;
% evp_E601(evp_E601(:,5:end)==evp_E601(1,5))=nan;
% check1=find(evp_d20==3276.6);
% check2=find(evp_E601==3276.6);
% 输出,sheet名改为年份,所有年份,全年存在一个excel表中
writecell(title,strcat(xls_Path,'EVP_d20.xlsx'),'Sheet',year,'Range','A1');
writematrix(evp_d20,strcat(xls_Path,'EVP_d20.xlsx'),'Sheet',year,'Range','A2');
writecell(title,strcat(xls_Path,'EVP_E601.xlsx'),'Sheet',year,'Range','A1');
writematrix(evp_d20,strcat(xls_Path,'EVP_E601.xlsx'),'Sheet',year,'Range','A2');
clear doy title;
end
后记:
(1)matlab版本为2021b,不稳定,卡退,对旧函数不友好,不推荐;
(2)查找替换数据异常值时,发现find函数查找不彻底,替换不完全,而且测试过2020b版本也有这个问题,经讨论怀疑有可能是matlab固有bug;
(3)经纬度转换成度,用excel的MID函数可以很方便的截取数值特定数位,但是matlab没有找到类似的函数,用截取字符串功能,需要进行两次数据格式转换,很麻烦,在此采用的是向下取整函数计算实现,当经纬度有三位数时请注意修改适配;
(4)代码只提供了核心部分,使用时请根据自己的数据情况和需求更改代码适配。