教你怎么在Python中使用Pandas.DataFrame对Excel进行操作

最新推荐文章于 2024-07-30 16:42:47 发布

J-贾

最新推荐文章于 2024-07-30 16:42:47 发布

阅读量1.1w

点赞数 4

分类专栏： Mysql linux 文章标签： Python Pandas.DataFrame Excel进行操作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010735147/article/details/87282614

版权

Mysql 同时被 2 个专栏收录

101 篇文章 1 订阅

订阅专栏

62 篇文章 1 订阅

订阅专栏

教你怎么在Python中使用Pandas.DataFrame对Excel进行操作

这里记录下一些Pandas对Excel的操作过程，供自己和码友们交流，共同提高、不断改进。

环境：Python3.6 + Pandas(0.22)

有一个1000行，28列的表格，包含了公司每个项目的各种信息(项目ID，名称，开始时间，状态，结束时间，报价，税率……)。这么多列，看了确实头晕@_@。这里我做了一个简单的表格，来说明一下Pandas是如何读取、筛选Excel的。

import pandas as pd

excelFile = r'TEMP.xlsx'

df = pd.DataFrame(pd.read_excel(excelFile))

print(df)

读取信息到DataFrame里面就这么简单，只需要提供一个excel的名称就好了，当然默认的Sheet名称是Sheet1。我们可以指定读取Sheet的名称的。且看 read_excel 的定义。

def read_excel(io, sheet_name=0, header=0, skiprows=None, skip_footer=0,

index_col=None, names=None, usecols=None, parse_dates=False,

date_parser=None, na_values=None, thousands=None,

convert_float=True, converters=None, dtype=None,

true_values=None, false_values=None, engine=None,

squeeze=False, **kwds):

这里不做过多说明，详细参数说明官方网站 https://pandas.pydata.org/pandas-docs/version/0.22/api.html。

print(df) 读取到的信息如下，是不是很简单(向Pandas开发团队致敬)：

Project ID Project Name Start Time Status Offer Tax Rate PM

0 #10001 Microsoft_XXXX 2018-01-01 Completed 1000000 0.060 Bob

1 #10002 Adobe_XXXX 2018-01-02 Processing 105500 0.065 TOM

2 #10003 VMVare_XXXX 2018-01-03 Processing 280000 0.070 Kate

3 #10004 Intel_XXXX 2018-01-04 Processing 520000 0.060 Jone

4 #10005 HP_XXXX 2018-01-05 Pending 600000 0.060 Bob

5 #10006 Lenovo_XXXX 2018-01-06 Completed 980000 0.080 Jone

6 #10007 DELL_XXXX 2018-01-07 Processing 620000 0.060 Kate

7 #10008 ALI_XXXX 2018-01-08 Processing 100000 0.060 Bob

8 #10009 Apple_XXXX 2018-01-09 Pending 80000 0.090 Ken

9 #10010 Google_XXXX 2018-01-10 Completed 610000 0.060 Ken

10 #10011 Amazon_XXXX 2018-01-11 Pending 92000 0.125 Ken

需求一：

我们只想要 Project Name、Status、Offer、Tax Rate、PM 这几列的信息：

import pandas as pd

excelFile = r'TEMP.xlsx'

df = pd.DataFrame(pd.read_excel(excelFile))

df1= df[['Project Name', 'Status', 'Offer', 'Tax Rate', 'PM']]

print(df1)

需求二：

我们只想要统计 Bob 的项目

import pandas as pd

excelFile = r'TEMP.xlsx'

df = pd.DataFrame(pd.read_excel(excelFile))

df1 = df[['Project Name', 'Status', 'Offer', 'Tax Rate', 'PM']]

df2 = df1.loc[df1['PM'] == 'Bob']

print(df2)

我们只想要统计 Bob 的，Status为Completed的项目

import pandas as pd

excelFile = r'TEMP.xlsx'

df = pd.DataFrame(pd.read_excel(excelFile))

df1 = df[['Project Name', 'Status', 'Offer', 'Tax Rate', 'PM']]

df2 = df1.loc[df1['PM'] == 'Bob'].loc[df1['Status'] == 'Completed']

print(df2)

需求三：

来统计PM各自的项目信息。

分析：首先我们要知道都有哪些PM，这在表的PM列里面有。

import pandas as pd

excelFile = r'TEMP.xlsx'

df = pd.DataFrame(pd.read_excel(excelFile))

df1 = df[['Project Name', 'Status', 'Offer', 'Tax Rate', 'PM']]

df2 = df1.loc[df1['PM'] == 'Bob'].loc[df1['Status'] == 'Completed']

#获取PM列的值

pmList = df1[['PM']].values.T.tolist()[:][0]

print(pmList)

#排除重复值

pmList = list(set(pmList))

print(pmList)

for pm in pmList:

dfByPM = df1.loc[df1['PM'] == pm]

print('\r\n')

print(dfByPM)

结果如下：

pandas 是不是很强大，我们只需要很少的代码，就可以读取和查询excel的几乎所有内容。

关注

4
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。