Python pandas 操作 excel 详解

1 概述

1.1 pandas 和 openpyxl 区别

  • Python 中的 pandas 和 openpyxl 库,均可以处理 excel 文件,其中主要区别:
    • pandas:① 数据操作和分析方面表现优异。它提供了各种文件格式(包括 Excel)中读取数据的函数,在过滤数据、汇总数据、处理缺失值和执行其它数据转换任务方便,特别有用。② 使用方便。DataFrame 对象,使用快速方便,且功能十分强大。
    • openpyxl侧重单元格格式设置。这个库也允许我们直接处理 Excel 文件。pandas 快,但 pandas 做不了的事情,可以让 openpyxl 来做,例如:单元格注释、填充背景色 等等

1.2 Series 和 DataFrame

  • Series:连续。可理解为 “一维数组”,由一行 或 一列 组成,具体是行,还是列,由 DataFrame 指定
  • DataFrame:数据框。可理解为 “二维数组”,由行和列组成
import pandas as pd

# Series 示例
s = pd.Series(['a', 'b', 'c'], index=[1, 2, 3], name='A')
print(s)
# 1    a
# 2    b
# 3    c
# Name: A, dtype: object

# DataFrame 示例
s1 = pd.Series(['a', 'b', 'c'], index=[1, 2, 3], name='A')
s2 = pd.Series(['aa', 'bb', 'cc'], index=[1, 2, 3], name='B')
s3 = pd.Series(['aaa', 'bbb', 'ccc'], index=[1, 2, 3], name='C')
# 方式1:指定 Series 为行
df = pd.DataFrame([s1, s2, s3])
print(df)
#      1    2    3
# A    a    b    c
# B   aa   bb   cc
# C  aaa  bbb  ccc

# 方式2:指定 Series 为列
df = pd.DataFrame({s1.name: s1, s2.name: s2, s3.name: s3})
print(df)
#    A   B    C
# 1  a  aa  aaa
# 2  b  bb  bbb
# 3  c  cc  ccc

2 常用操作

2.1 创建 Excel:to_excel()

import pandas as pd

# 测试数据
data = {'ID': [1, 2, 3], 'Name': ['张三', '李四', '王五']}

# 1.创建 DataFrame 对象
df = pd.DataFrame(data=data)

# 可选操作。将 ID 设为索引,若不设置,会使用默认索引 narray(n)
df = df.set_index('ID')  # 写法1
# df.set_index('ID', inplace=True)  # 写法2

# 2.写入 excel 至指定位置(若文件已存在,则覆盖)
df.to_excel(r'C:\Users\Administrator\Desktop\Temp\1.xlsx')

指定索引前后,效果对比:
在这里插入图片描述

2.2 读取 Excel:read_excel()

import pandas as pd

# 1.读取 excel。默认读取第一个 sheet
student = pd.read_excel(r'C:\Users\Administrator\Desktop\Temp\1.xlsx')

# 2.读取常用属性
print(student.shape)  # 形状(行,列)
print(student.columns)  # 列名

读取指定 sheet:
在这里插入图片描述

import pandas as pd

# 1.读取指定 sheet 的 excel,以下两种方式等同
student = pd.read_excel(r'C:\Users\Administrator\Desktop\Temp\1.xlsx', sheet_name=1)
# student = pd.read_excel(r'C:\Users\Administrator\Desktop\Temp\1.xlsx', sheet_name='Sheet2')

# 2.读取常用属性
print(student.shape)  # 形状(行,列)
print(student.columns)  # 列名

2.2.1 header:标题的行索引

场景1:默认。第一行为标题(行索引为 0,即:header=0)

在这里插入图片描述

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel(默认第 1 行为标题,行索引为 0,即:header=0)
student = pd.read_excel(filePath)
print(student.columns)
# Index(['ID', 'Name', 'Age', 'Grade'], dtype='object')

场景2:指定第 n 行为标题
在这里插入图片描述

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 场景2:excel 中第 2 行才是我们想要的标题(即:header=1)
student = pd.read_excel(filePath, header=1)
print(student.columns)
# Index(['ID', 'Name', 'Age', 'Grade'], dtype='object')

场景3:没有标题,需要人为给定
在这里插入图片描述

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 场景3:excel 中没有标题,需要人为设定
student = pd.read_excel(filePath, header=None)
student.columns = ['ID', 'Name', 'Age', 'Grade']
student.set_index('ID', inplace=True)  # 指定索引列,并替换原数据
student.to_excel(filePath)  # 写入至 Excel
print(student)
#    Name  Age  Grade
# ID                 
# 1    张三   18     90
# 2    李四   20     70
# 3    王五   21     80
# 4    赵六   19     90

2.2.2 index_col:索引列

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 读取 Excel,不指定索引列(会默认新增一个索引列,从 0 开始)
student = pd.read_excel(filePath)
print(student)
#    ID Name  Age  Grade
# 0   1   张三   18     90
# 1   2   李四   20     70
# 2   3   王五   21     80
# 3   4   赵六   19     90


# 读取 Excel,指定索引列
student = pd.read_excel(filePath, index_col='ID')
print(student)
#    Name  Age  Grade
# ID                 
# 1    张三   18     90
# 2    李四   20     70
# 3    王五   21     80
# 4    赵六   19     90

索引相关:

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel,并指定索引列
student = pd.read_excel(filePath, index_col='ID')

2.2.3 dtype:数据类型

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel 并指定 数据类型
student = pd.read_excel(filePath, dtype={'ID': str, 'Name': str, 'Age': int, 'Grade': float})
print(student)
#   ID Name  Age  Grade
# 0  1   张三   18   90.0
# 1  2   李四   20   70.0
# 2  3   王五   21   80.0
# 3  4   赵六   19   90.0

2.2.4 skiprows:跳过的行数

  • 比如:Excel 中有空行,如下图
  • 实际的数据是在第 3 行,所以要跳过前 2 行

在这里插入图片描述

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

student = pd.read_excel(filePath, skiprows=2)
print(student)
#    ID Name  Age  Grade
# 0   1   张三   18     90
# 1   2   李四   20     70
# 2   3   王五   21     80
# 3   4   赵六   19     90

2.2.5 usercols:指定列数

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 读取 Excel B - D 列(均包含)
student = pd.read_excel(filePath, usecols='B:D')
print(student)
#   Name  Age  Grade
# 0   张三   18     90
# 1   李四   20     70
# 2   王五   21     80
# 3   赵六   19     90

在这里插入图片描述

2.2.6 head(n)、tail(n):读取前、后 n 行数据

  • 有时候,excel 数据量很大,读取全部会很耗时,也没必要
  • 咱测试时,仅读取部分行即可
import pandas as pd

# 1.读取 excel
student = pd.read_excel(r'C:\Users\Administrator\Desktop\Temp\1.xlsx')

# 读取前 3 行数据(默认 5 行)
print(student.head(3))

# 读取后 3 行数据(默认 5 行)
print(student.tail(3))

2.3 读写数据

2.3.1 at():获取单元格

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel 并指定 索引
student = pd.read_excel(filePath, index_col=None)

for i in person.index:
    # 读写单元格:ID列,i行 的数据
    student['ID'].at[i] = i + 2

print(student)

2.3.2 loc[]:数据筛选

import pandas as pd


def age_18_to_20(age):
    return 18 <= age <= 20


def grade_good(grade):
    return 90 <= grade <= 100


# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel 并指定 索引
student = pd.read_excel(filePath, index_col='ID')
student = student.loc[student['Age'].apply(age_18_to_20)].loc[student['Grade'].apply(grade_good)]
print(student)

2.3.3 sort_values():数据排序

import pandas as pd

# 文件路径
filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'

# 1.读取 excel 并指定 索引
student = pd.read_excel(filePath, index_col='ID')

# 功能:排序
# by:待排序的字段
# ascending:顺序(True) 还是 逆序(False)
# inplace:是否替换当前对象
# 方式1:排序单个字段
student.sort_values(by='Grade', ascending=False, inplace=True)
print(student)
#    Name  Grade
# ID            
# 1    张三     90
# 4    赵六     90
# 3    王五     80
# 2    李四     70

# 方式2:排序多个字段,如:先顺序排列 Grade, 后逆序排列 ID
student.sort_values(by=['Grade', 'ID'], ascending=[True, False], inplace=True)
print(student)
#    Name  Grade
# ID            
# 2    李四     70
# 3    王五     80
# 4    赵六     90
# 1    张三     90

3 实战

3.1 遍历 Excel

import pandas as pd


def read_excel(excel_name):
    data = pd.read_excel(excel_name)
    for row in data.itertuples():
        # Index:索引, Name:字段名
        print(row.Index, row.Name)


if __name__ == '__main__':
    filePath = r'C:\Users\Administrator\Desktop\Temp\1.xlsx'
    read_excel(filePath)
  • 43
    点赞
  • 148
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
### 回答1: PandasPython编程语言的一个开源数据分析和数据处理库。它提供了丰富的数据结构和功能,使得数据分析任务更加简单和高效。而Xmind是一种思维导图工具,可以帮助用户组织和展示复杂概念和信息。 Pandas库结合了NumPy的功能和扩展了更高级的数据结构,最重要的是它的数据结构--Dataframe。Dataframe是一个二维的表格型数据结构,类似于数据库表或Excel中的表格。它提供了各种方法来处理和操纵这些表格数据,包括数据的索引、选择、过滤、排序、分组等。 使用Pandas库可以读取和写入多种数据格式,如CSV、Excel、SQL数据库等。通过Pandas的数据结构,用户可以进行数据清洗和转换,处理缺失数据、重复数据、异常数据等。此外,Pandas还提供了强大的时间序列处理功能,可以进行时间索引、频率转换、滞后、移动窗口等操作。 在数据分析方面,Pandas提供了各种统计计算的方法,如平均值、标准差、协方差、相关系数等。同时,Pandas库还能够进行数据可视化,通过绘图的方式展示数据的分布、趋势和关联关系。这使得数据分析师可以更加直观地理解和解释数据。 Xmind是一种用于创建思维导图的工具,它可以将复杂的概念和信息以图形化的方式展示出来。思维导图可以帮助用户整理和梳理思路,帮助用户更好地理解和记忆知识。在使用Pandas进行数据分析时,可以使用Xmind来记录和整理自己的数据分析过程,包括数据处理的步骤、分析的结果和相关的观察或发现。这样可以帮助用户更好地管理和沟通数据分析的过程和结果。 总结来说,Pandas是一个功能强大的数据分析和处理库,通过其丰富的数据结构和方法,可以简化和高效完成各种数据分析任务。而Xmind则是一种思维导图工具,能够帮助用户整理和展示复杂概念和信息,方便用户将数据分析过程和结果进行可视化和整理。使用Pandas和Xmind可以让数据分析任务更加简单和直观。 ### 回答2: Pandas是一个开源的Python数据分析库,它提供了丰富的数据结构和数据分析工具,使得数据处理更加简单、高效。而Pandas库中的核心数据结构是DataFrame,可以理解为一个二维的表格数据,类似于Excel中的数据表。Xmind是一款思维导图软件,可以帮助我们更好地组织和展示思维。 Pandas可以通过Xmind来进行详解,主要包括以下几个方面: 1. DataFrame的创建和基本操作:可以通过读取文件、字典、Numpy数组等方式来创建DataFrame,然后可以进行数据的选取、切片、筛选等操作。 2. 数据的清洗和处理:Pandas提供了强大的数据清洗和处理功能,可以用来处理缺失数据、重复数据以及异常值。也可以进行数据的合并、拆分、排序等操作,以及字符串、时间序列、数值等类型的转换。 3. 数据的分组和聚合:Pandas的分组和聚合功能非常强大,可以进行按列或者按行的分组操作,然后对每一组数据进行一些聚合操作,如求和、计数、平均值等。这样可以更好地了解数据的分布和概况。 4. 数据的可视化:Pandas可以配合Matplotlib等数据可视化工具,对数据进行绘图和可视化操作。可以绘制线图、柱状图、饼图等各种图表,更直观地展示数据的特征和趋势。 综上所述,使用Pandas库可以更方便地进行数据分析和处理,而通过Xmind来详细说明Pandas的各种功能和操作,能够更好地帮助用户理解和应用这些功能,从而更高效地进行数据分析和处理。 ### 回答3: Pandas是一个Python库,专门用于数据分析和数据操作。它提供了高效的数据结构和数据分析工具,使得使用Python进行数据处理变得更加方便和快速。而Xmind是一款脑图软件,用于整理和组织复杂的思维结构。 Pandas提供的数据结构主要包括两种:Series和DataFrame。Series是一维的带有标签的数组,类似于传统的数组或列表。每个元素都有唯一的标签,可以通过标签进行索引取值,方便进行数据查找和操作。DataFrame则是二维的表格型数据结构,类似于关系型数据库中的表。它由多个Series组成,每个Series代表一列数据。DataFrame可以进行行列索引、数据选择和过滤,方便进行数据的清洗和分析。 Pandas提供了丰富的数据操作和分析工具。可以进行数据的读取、清洗、转换和处理。可以对数据进行切片、聚合、排序和合并等操作。还可以对数据进行统计分析、绘图和可视化。Pandas还支持对缺失数据的处理,能够灵活处理数据中的空值,并进行填充或删除操作。 Xmind是一款强大的思维导图软件,可以帮助用户将复杂的信息整理、组织和展示。用户可以使用Xmind创建思维导图来表示数据结构、函数关系、工作流程等。通过将Python中的Pandas库和Xmind结合使用,可以更好地理解和展示数据分析的过程。可以使用脑图绘制数据处理流程图,方便团队内部的交流和理解。同时,可以使用脑图来整理数据分析中的关键知识点和技巧,方便进行知识传递和分享。 综上所述,PythonPandas库提供了便捷的数据处理和分析工具,而Xmind则可以辅助整理和展示数据分析的过程和结果。两者结合使用,可以帮助用户更好地进行数据分析和可视化。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鱼丸丶粗面

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值