我们在读取excel格式会经常使用到openyxl,但碰到xls格式就无法很好的支持
这时候需要将xls装换成xlsx格式,有两种方法:
1、使用win32com进行转换
import win32com.client as win32
import pythoncom
pythoncom.CoInitialize() # 初始化COM库
excel = win32.gencache.EnsureDispatch("Excel.Application")
wb = excel.Workbooks.Open(file_path)
wb.SaveAs(new_file_path, FileFormat=51) # 转换为xlsx
wb.Close()
excel.Application.Quit()
pythoncom.CoUninitialize()
2、通过xlrd读取并转换
import xlrd
workbook = xlrd.open_workbook(file_path)
sheet = workbook.sheet_by_index(0)
df = pd.DataFrame(sheet.row_values(i) for i in range(1, sheet.nrows)) # 转换为dataframe
colnames = sheet.row_values(0)
df.columns = colnames
df.to_excel(new_file_path)
第一种方法更加直接,但如果原文件数据量大,速度很慢
第二种方法可以解决数据量大的问题