对于我们下载的多数数据集,我们可能需要提取其中指定的来使用,比如这个空气质量数据集,全国那么多站点,我只想要我研究的区域的站点数据,然而,当我打开文件夹的时候,失望了,因为这些数据都是一个一个的csv文件。有一个方法就是excel可以用脚本把这些单独的csv合并为一个csv,但可能伴随的问题就是数据超出excel的存储上限,so,我们换一种做法提取指定站点的数据。
这次实验用到的数据是全国2014-2020年的站点空气质量数据,每小时的分辨率的,截图看看长什么样子:
要是一个一个的打开去提取自己需要的,那会疯掉的,So,上神器--Python来完成这次实验操作
targets就是你指定的想提取的站点,想提取谁就指定谁,就输入谁的站点代号就可以啦,整体代码如下:
import os
import pandas as pd
# 定义相关参数
dataPath = './data' # 数据目录
targets = ['1001A&#