python 合并 循环list_谁怕?“海量”表格纵向合并

问题是酱紫的:我之前从中国空气质量在线监测分析平台爬取了全国368个城市和地区的日度空气质量数据,每个城市和地区的数据都是单独放在一个csv文件中,这么做有一个很大的弊端就是,想要把空气质量数据和其他数据进行横向合并就比较困难,这很不利于我们后续的数据分析。所以,我们首先可能就需要将这368个csv文件纵向合并为一个文件。

6e6908f47ca1088750dd0e5f4dfb9713.png

fd4ef70487b1f8625604577fbe5fd302.png

     如果是仅有个位数的csv文件,我们可以手工复制粘贴,但是对于几百上千乃至上万的表格,手工合并肯定是不可取的,Python可以帮助我们完成这一“壮举”。不过,在合并之前,我们首先要有一个清晰的合并思路: (1)使用pandas依次读取每一个csv文件,存为dataframe。(2)依次将每一个dataframe以追加的方式写入到一个新的csv中。      想要读取csv文件,我们首先需要告诉Python我们想要读取的文件名,所以我们需要有一个包含368个csv文件的文件名的列表。如果我们手工整理文件名列表的话,那效率太低了, Python中os库下的listdir方法可以帮助我们获取指定文件夹下所有的文件名,并生成一个列表。
 import os all_file_list=os.listdir(r'D:\爬虫下载\日空气质量') all_file_list
e448c3174b9350131f44c08975b3affb.png      这样,我们就获取到了D盘日空气质量文件夹下所有文件名,接下来,我们就可以对这个文件名列表进行循环遍历,依次读取每一个csv文件,然后进行表格纵向合并。
for file in all_file_list:    df = pd.read_csv(r'D:\爬虫下载\日空气质量\{}'.format(file),index_col='日期')    df.drop(labels='Unnamed: 0',axis=1,inplace=True)    city = file.split('.')[0]    df.insert(0,'城市',city)#在第零列插入一列,值为城市名称    df.drop(labels='日期',axis=0,inplace=True)#删除索引为日期的行    df.to_csv(r'D:\爬虫下载\日空气质量\空气质量数据(日度).csv',              mode='a',encoding='utf_8_sig')
  • df.drop(labels='Unnamed: 0',axis=1,inplace=True)表示删除序号那一列;

  • city = file.split('.')[0]表示进行字符串分割,这样我们就可以拿到城市名称;

  • df.insert(0,'城市',city)表示在第1列左边插入一列,值为城市名称;

  • df.drop(labels='日期',axis=0,inplace=True)表示删除索引为日期的行(没用的行);

  • df.to_csv是将df写入到一个新的csv文件,mode='a'表示是追加方式。

     这样,我们就完成了368个csv文件的纵向合并,合并成果如下图所示,一共有709943行数据,大家也可以动手自己试一下。 合并前和合并后的数据之前实际上都已经分享给大家了,需要的朋友请在后台对话框回复关键词“表格合并”。

fb2146532b576ee01e2812e51a5dcd9b.png

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值