原标题:柳小白Python学习笔记34 pandas对Excel表格基本信息的查看
想要高效快捷地处理一件事情,就要在处理前对它有所了解。
昨天我们对'光大2020年1月.xls'工作薄中的“wz”工作表做了大致的了解。知道了它的数据有几行几列及前五行的内容,但是这种程度的了解远远不够。你或许说,昨天不是print了整个工作表查看数据吗?对呀,这是因为“wz”工作表内容比较少,就20行7列。如果工作表中有几千甚至几万行的数据呢,我们还要print出来一一查看吗?程序读取慢不说,也与我们想高效快捷地处理事情的初衷不符。那么要怎么做呢?接下来就学习几个快速查看工作表数据信息的方法。
一、使用head()重新设置预览行数
先用昨天学过的head()方法预览工作表的前10行数据。昨天是没有给head()传入参数,默认预览前5行数据。
# 打开'光大2020年1月.xls工作薄的第二个工作表
wz = pd.read_excel('光大2020年1月.xls',sheet_name=1)
pd.set_option('display.width', None)
# 查看工作表大小
print(wz.shape)
# 预览工作表前10行
print(wz.head(10))
34-1
二、打开文件时传入header参数设置列索引
从34-1图中的运行结果中我们找到需要处理的数据是从第10行开始。我们在打开文件的语句里加入header参数,把索引位置为9的行数设置为列索引。如下:
# 设置列索引
wz = pd.read_excel('光大2020年1月.xls',
sheet_name=1,header=9)
print('wz')
删除print(wz.head(10))语句。
34-2
从图34-2中的运行结果保留11行7列数据,以下就对这些数据进行查看。
三、使用info()查看数据类型
print(wz.info())
34-3
从图34-3运行结果信息量还是比较大的,整理如下:
第一行:获取工作表的类是:'pandas.core.frame.DataFrame';
第二行:查看到行索引是一个从0到10的整型列表;
第三行:获取数据列一共七列;
第四行: 展示5至11行的列名,分别是“列名称”、“不是空值”,“数据类型”
第五行至第十一行:以行为单位列出每列的列名,非空值数量及数据类型。
第十二行: 对第五行至第十一行信息做个总结,得出每种数据列数:有1列时间类型数据,3列浮点型数据,1列整型数据和2列文本型数据。
第十三行:获取内存使用为:744.0 字节
从上面的总结可以看到,使用info()可以输出选定工作表的所有列的数据类型。
四、预览工作表后几行数据
在数据行数比较多的时候最好使用tail()预览一下工作表后几行数据,这个方法如果不设置参数默认查看后5行数据。
print(wz.tail())
34-4
图34-4展示了工作表的后5行数据。
今天使用了pandas模块中的几个方法对“wz”工作表的基础信息进行了查看为后面的操作做好准备工作。返回搜狐,查看更多
责任编辑: