python处理excel文件用到的模块包含openpyxl、xlsxwriter、xlutils、xlrd、xlwt。想要了解更多关于这几个处理excel文件的python包的详情,可以访问python-excel官网。因为我使用的是Anaconda,Anaconda已经默认安装了xlrd和xlwt等模块,故无需再使用pip去安装啦。
而Python的数据分析库pandas提供了read_excel函数来读取.xls和.xlsx两种excel文件。其中.xls是office excel 2007之前的版本默认保存的文件扩展名。而.xlsx是2007版本之后的。 有时一个excel文件会包含多个工作表,比如下面这个表格文有book和movie两个工作表。
使用xlrd读取excel文件:
# xlrd为读取excel的库
import xlrd
workbook = xlrd.open_workbook('douban.xlsx')
sheetnames = workbook.sheet_names()
sheet1 = workbook.sheet_by_name(sheetnames[1])
#通过sheet名称获取到第2张工作表book
#或 sheet1 = workbook.sheets()[1]
#或 sheet1 = workbook.sheet\_by\_index(1)
print('sheet名称列表:' + sheetnames)
print('第1张工作表名称:' + sheet1.name)
print('列数:' + str(sheet1.ncols))
print('行数:' + str(sheet1.nrows))
print('第2行所有数据:' + str(sheet1.row_values(2))) # 包括列名这一行,从0算起,
print('第2列所有数据:' + str(sheet1.col_values(1)))
通过pandas.read_excel方法读取excel文件,read_excel( )默认读取第一个工作表
的,如果我想要读取movie这个工作表的话,就需要传参啦。
df = pd.read_excel('douban.xlsx', sheet_name = 'movie')
df
这时存储在表中的数据通过pandas.read_excel方法读取到DataFrame中啦,结果显示如下:
使用to_excel()方法,可以将数据存储到excel文件里。写入方法不详说了。
03 数据库的读取与写入
Python处理数据库时同样有第三方库,比如PyMySQL,SQLAlchemy等等,利用这些ORM库(ORM,全称object-re