前言
数据处理是 Python 的一大应用场景,而 Excel 则是最流行的数据处理软件。因此用Python 进行数据相关的工作时,难免要和 Excel 打交道。
标准的 Excel 文件(xls/xlsx)具有较复杂的格式,并不方便像普通文本文件一样直接进行读写,需要借助第三方库来实现。
常用的库是 python-excel 系列:
xlrd、xlwt、xlutils
- xlrd - 读取 Excel 文件
- xlwt - 写入 Excel 文件
- xlutils - 操作 Excel 文件的实用工具,如复制、分割、筛选等
库的安装
它们有个缺陷,就是只能处理 xls 文件。如果你想用新版本的 xlsx,可以考虑 openpyxl 和 xlsxwriter。
如果你只是装了Python的话,你需要分别安装xlrd、xlwt、xlutils,安装方式看个人情况,为了方便,建议安装pip包,这样安装很简单,直接pip install 包名。如果你安装了集成环境,比如anaconda,我已安装,已经有了 xlrd 和 xlwt,所以我只需要再安装xlutils即可。
分析Excel文件的层级对象
要读取excel的数据,就要了解excel的结构,根据excel的结构一层一层的去读取数据。
excel有三层级对象,workbook,sheet,和cell。一个excel文件就是一个workbook,所以在最初我们必须要打开这个excel文件,也就是workbook。sheet我们都很熟悉,就是表,我们都知道一个excel文件有时候会有很多的表,所以我们必须要选择是读取哪个表的数据,最后才是cell,cell其实就是格子,excel的表格就是一个二维数组,cell就是这个表格中的最小单元,也就是我们读取数据存储的地方。
xlrd库的使用
更多内容,参考链接:
http://xlrd.readthedocs.io/en/latest/
http://xlrd.readthedocs.io/en/latest/api.html
首先读取ad.xlsx表中的数据。先看一下代码:
#-*- coding:utf-8 -*-import xlrd#打开xlsx文件ad_wb = xlrd.open_workbook("ad.xlsx")#获取第一张表的名称row_data = ad_wb.sheets()[0]print ("表单数量: