最近有个需求要处理excel 格式的数据,数据量比较大。用传统的语言似乎不太好处理,于是改用python实现,这里记录一下实现过程。
首先,科普一下xlsx xls的excel文件区别是什么。
xls是03版Office Microsoft Office Excel 工作表的格式,用03版Office,新建Excel默认保存的Excel文件格式的后缀是.xls;
xlsx是07版Office Microsoft Office Excel 工作表的格式,用07版Office,新建Excel默认保存的的Excel文件格式后缀是.xlsx。
使用xls的唯一理由只能是照顾老版本软件的兼容性需要
xls的坏处有:
如果你的数据超出256列和65536行,使用xls会导致数据被截断
使用xls格式后,无法使用一系列Excel新功能
使用xls格式会导致文件体积暴增
使用xls格式无法挽救出错文件
xls格式没有xlsx格式快
所以大家以后还是用xlsx格式吧。
好了,言归正传,开始写一下实现部分,处理的部分用到了下面几个库
1. sudo easy_install pip
2. pip install openpyxl #读取xlsx格式excel文件
3. pip install xlrd #读取xls 格式excel文件
4. pip install uniout #可以显示中文
5. pip install numpy #数据保存
openpyxl模块
安装如上,处理excel的模块库有几种,我只记录跟使用了这一个,好