Pandas系列学习教程——13 pandas批量拆分Excel与合并Excel

本文详细介绍了Pandas库在数据分析中的基础应用,包括数据读取、结构理解、查询、数据操作、合并等,重点展示了如何使用Pandas批量拆分和合并Excel文件的过程。
摘要由CSDN通过智能技术生成

系列文章目录

第一章 Pandas 学习入门之pandas数据读取

第二章 Pandas 学习入门之pandas数据结构

第三章 Pandas 学习入门之pandas数据查询

第四章 Pandas 学习入门之pandas新增数据列

第五章 Pandas 学习入门之pandas数据统计函数

第六章 Pandas 学习入门之pandas处理缺失值 

第七章 Pandas 学习入门之pandas数据排序

第八章 Pandas 学习入门之pandas字符串操作

第九章 Pandas 学习入门之pandas重要参数axis

第十章 Pandas 学习入门之pandas索引index用途

第十一章 Pandas 学习入门之pandas实现DataFrame的Merge

第十二章 Pandas 学习入门之pandas实现数据合并Concat

第十三章 Pandas 学习入门之pandas批量拆分Excel与合并Excel


随着人工智能的不断发展,数据分析这门技术也越来越重要,很多人都开启了学习数据分析,本文就介绍了pandas学习的基础内容。本章简单介绍了pandas批量拆分Excel与合并Excel


前言

本章简单介绍了pandas批量拆分Excel与合并Excel


提示:以下是本篇文章正文内容,下面案例可供参考

一、本章任务

实例演示:

  1. 将一个大Excel等份拆成多个Excel
  2. 将多个小Excel合并成一个大Excel并标记来源 

二、准备工作

1.文件目录创建

代码如下(示例):

work_dir="./course_datas/c15_excel_split_merge"
splits_dir=f"{work_dir}/splits"

import os
if not os.path.exists(splits_dir):
    os.mkdir(splits_dir)

 代码详解:

  1. 设置工作目录work_dir"./course_datas/c15_excel_split_merge"
  2. 设置splits_dir为在work_dir下名为splits的目录路径。
  3. 使用os.path.exists()函数检查splits_dir是否存在。
  4. 如果splits_dir不存在(os.path.exists(splits_dir)返回False),则通过os.mkdir(splits_dir)创建该目录。
  5. 代码正确地检查了splits_dir目录(即"./course_datas/c15_excel_split_merge/splits")是否存在,如果不存在,则创建该目录。

 2.引入库

import pandas as pd

3.读取数据 

df_source = pd.read_excel(f"{work_dir}/crazyant_blog_articles_source.xlsx")

df_source.head()

df_source.index
RangeIndex(start=0, stop=258, step=1)
df_source.shape
(258, 3)
total_row_count = df_source.shape[0]
total_row_count
258

shape返回的是一个元组( ,),功能类似于list 

三、将一个大Excel等份拆成多个Excel

  1. 使用df.iloc方法,将一个大的dataframe,拆分成多个小dataframe
  2. 将使用dataframe.to_excel保存每个小Excel

 1.计算拆分后的每个excel的行数

# 这个大excel,会拆分给这几个人
user_names = ["xiao_shuai", "xiao_wang", "xiao_ming", "xiao_lei", "xiao_bo", "xiao_hong"]
# 每个人的任务数目
split_size = total_row_count // len(user_names)
if total_row_count % len(user_names) != 0:
    split_size += 1

split_size

43 

 2.拆分成多个dataframe

代码详解:

  1. 初始化一个空列表 df_subs,用于存储分割后的DataFrame信息。
  2. 使用 enumerate(user_names) 遍历用户名称列表,enumerate 函数会返回每个元素的索引 (idx) 和值 (user_name)。
  3. 计算每个子DataFrame的起始 (begin) 和结束 (end) 索引,这些索引基于当前用户的索引和指定的分割大小 (split_size)。
  4. 使用 .iloc[begin:end]df_source 中选取对应行范围的数据,创建一个子DataFrame (df_sub)。
  5. 将当前的索引 (idx)、用户名称 (user_name) 和子DataFrame (df_sub) 作为一个元组添加到列表 df_subs 中。
  6. idx是通过enumerate函数在遍历user_names列表时自动生成的索引值。enumerate是一个内置函数,它允许你在遍历一个序列(比如列表、字符串或元组)的同时,跟踪当前项的索引位置。

 3.将每个dataframe存入excel

for idx, user_name, df_sub in df_subs:
    file_name = f"{splits_dir}/crazyant_blog_articles_{idx}_{user_name}.xlsx"
    df_sub.to_excel(file_name, index=False)

使用index=False来避免将索引写入到Excel文件中。 

四、合并多个小Excel到一个大Excel

  1. 遍历文件夹,得到要合并的Excel文件列表
  2. 分别读取到dataframe,给每个df添加一列用于标记来源
  3. 使用pd.concat进行df批量合并
  4. 将合并后的dataframe输出到excel

 1.遍历文件夹,得到要合并的Excel名称列表

import os
excel_names = []
for excel_name in os.listdir(splits_dir):
    excel_names.append(excel_name)
excel_names
['crazyant_blog_articles_0_xiao_shuai.xlsx',
 'crazyant_blog_articles_1_xiao_wang.xlsx',
 'crazyant_blog_articles_2_xiao_ming.xlsx',
 'crazyant_blog_articles_3_xiao_lei.xlsx',
 'crazyant_blog_articles_4_xiao_bo.xlsx',
 'crazyant_blog_articles_5_xiao_hong.xlsx']

2.分别读取到dataframe 

df_list = []

for excel_name in excel_names:
    # 读取每个excel到df
    excel_path = f"{splits_dir}/{excel_name}"
    df_split = pd.read_excel(excel_path)
    # 得到username
    username = excel_name.replace("crazyant_blog_articles_", "").replace(".xlsx", "")[2:]
    print(excel_name, username)
    # 给每个df添加1列,即用户名字
    df_split["username"] = username
    
    df_list.append(df_split)
crazyant_blog_articles_0_xiao_shuai.xlsx xiao_shuai
crazyant_blog_articles_1_xiao_wang.xlsx xiao_wang
crazyant_blog_articles_2_xiao_ming.xlsx xiao_ming
crazyant_blog_articles_3_xiao_lei.xlsx xiao_lei
crazyant_blog_articles_4_xiao_bo.xlsx xiao_bo
crazyant_blog_articles_5_xiao_hong.xlsx xiao_hong

!!dataframe没有append;list才有append方法!! 

3.使用pd.concat进行合并 

df_merged = pd.concat(df_list)

df_merged.shape
(258, 4)
df_merged.head()

df_merged["username"].value_counts()
username
xiao_shuai    43
xiao_wang     43
xiao_ming     43
xiao_lei      43
xiao_bo       43
xiao_hong     43
Name: count, dtype: int64

 4. 将合并后的dataframe输出到excel

df_merged.to_excel(f"{work_dir}/crazyant_blog_articles_merged.xlsx", index=False)

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 27
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用PandasExcelWriter和openpyxl模块来分和合并单元格。 首先,打开Excel文件并读取数据: ```python import pandas as pd # 读取Excel文件 df = pd.read_excel('data.xlsx') ``` 接下来,按省份分数据: ```python # 按省份分数据 for province in df['省份'].unique(): # 获取该省份的所有行数据 province_data = df[df['省份'] == province] # 将省份作为文件名 file_name = f'{province}.xlsx' # 创建ExcelWriter writer = pd.ExcelWriter(file_name, engine='openpyxl') # 将数据写入Excel文件 province_data.to_excel(writer, index=False) # 关闭ExcelWriter writer.save() ``` 然后,按省份合并单元格: ```python from openpyxl import load_workbook # 合并单元格 for province in df['省份'].unique(): # 获取该省份的文件名 file_name = f'{province}.xlsx' # 加载Excel文件 wb = load_workbook(file_name) ws = wb.active # 遍历每个单元格 for row in range(2, ws.max_row + 1): # 如果该单元格与上一个单元格的值相同,则合并 if ws.cell(row=row, column=1).value == ws.cell(row=row-1, column=1).value: ws.cell(row=row, column=1)._style = ws.cell(row=row-1, column=1)._style ws.merge_cells(start_row=row-1, end_row=row, start_column=1, end_column=1) # 保存Excel文件 wb.save(file_name) ``` 最后,将所有省份的数据合并到一个Excel文件中: ```python # 合并所有省份数据 writer = pd.ExcelWriter('all_data.xlsx', engine='openpyxl') for province in df['省份'].unique(): # 获取该省份的文件名 file_name = f'{province}.xlsx' # 加载Excel文件 province_data = pd.read_excel(file_name) # 将数据写入Excel文件 province_data.to_excel(writer, sheet_name=province, index=False) # 删除该省份的Excel文件 os.remove(file_name) # 关闭ExcelWriter writer.save() ``` ### 回答2: pandas是一种强大的数据处理工具,可以帮助我们对Excel文件进行各种操作。在Excel中,有时我们需要按省份合并单元格,可以使用pandas来完成这个任务。 首先,我们需要导入pandas库,并读取Excel文件。可以使用pandas的read_excel()函数来读取Excel文件,并将其转换为DataFrame对象。接下来,我们可以查看DataFrame对象的列名,以确定需要进行合并的列和行。在本例中,我们将假设省份信息保存在名为“省份”的列中。 一种常见的合并单元格的方式是将相同省份的行进行合并,并将省份信息显示在一个单元格中。在pandas中,可以使用groupby()函数按照省份进行分组,并使用agg()函数进行聚合操作。具体代码如下: ```python import pandas as pd # 读取Excel文件 df = pd.read_excel('file.xlsx') # 按省份进行分组 grouped = df.groupby('省份') # 合并单元格并显示省份信息 df_merged = grouped.agg({'省份': lambda x: ''.join(x)}).reset_index() # 输出结果到Excel文件 df_merged.to_excel('merged_file.xlsx', index=False) ``` 上述代码中,我们首先使用groupby()函数按照“省份”列进行分组,并使用agg()函数对分组后的数据进行聚合操作。其中,lambda函数用于将每个分组中的省份信息拼接成一个字符串。然后,我们使用reset_index()函数重置索引,并将结果保存到df_merged中。 最后,我们可以使用to_excel()函数将合并后的结果保存为一个新的Excel文件。其中,index=False表示不将索引列保存到Excel文件中。 通过使用pandas的功能,我们可以方便地对Excel文件进行合并单元格的操作,提高数据处理的效率和准确性。 ### 回答3: 使用Pandas库可以很方便地对Excel中的数据进行处理。对于按省份合并单元格的操作,可以参考以下步骤: 1. 导入所需的库和模块,包括pandas和openpyxl: ``` import pandas as pd from openpyxl import load_workbook ``` 2. 使用`pd.read_excel()`方法读取Excel文件: ``` df = pd.read_excel('数据.xlsx') ``` 3. 根据省份列将数据进行分,可以使用`groupby()`方法对省份列进行分组: ``` grouped = df.groupby('省份') ``` 4. 使用`as_index=False`参数将省份设置为索引列,并将分组后的数据保存到一个新的DataFrame中: ``` new_df = grouped.apply(lambda x: x.set_index('省份', drop=False)).rename_axis(None) ``` 5. 对新的DataFrame中的省份列进行合并单元格的操作,可以使用openpyxl库中的Worksheet对象来实现: ``` writer = pd.ExcelWriter('新数据.xlsx', engine='openpyxl') writer.book = load_workbook('新数据.xlsx') new_df.to_excel(writer, sheet_name='Sheet1', merge_cells=True, startrow=1) worksheet = writer.sheets['Sheet1'] for cell_range in worksheet.merged_cells.ranges: worksheet.unmerge_cells(str(cell_range)) writer.save() ``` 通过以上步骤,我们可以将Excel文件中的数据按照省份进行分,并将相同省份的行合并为单元格。最后,我们将处理后的数据保存到一个新的Excel文件中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值