python读取excel丨换一种存储格式, 读取速度提升几倍

您好, 本博客将持续更新python数据分析技巧, 一次解决一个问题,欢迎关注订阅!

本次介绍提升excel文件读取速度问题
工作中我们会有一些大文件(excel, csv等), 作为基础数据经常会读取, 如何减少读取时间, 提升效率呢?

今天用了一个88万行13列的表格, 按不同的方式读取比较读取用时如下:
在这里插入图片描述

  1. excel文件: 文大小 61.9M, 读取用时 200秒
  2. csv文件: 文件大小 194M, 读取用时 5秒
  3. hdf文件: 文件大小 80M, 读取用时 2

相同的数据, 用hdf方式读取速度比其他两种快很多, 大文件建议不要存储为excel格式

代码

import pandas as pd
import time
t1 = time.time()

data_excel = pd.read_excel('./data_excel.xlsx')
#data_csv = pd.read_csv('./data_csv.csv')
#data_hdf= pd.read_hdf('./data_hdf.h5') # 文件路径也不能有中文
t2 = time.time()

print('读取用时:', t2 - t1)

dataframe转hdf文件

使用pandas.to_hdf()方法将dataframe转成后缀为h5的文件

data_csv.to_hdf('./data_hdf.h5',key='xy') 
# key参数为英文即可

更多参数介绍: https://www.cjavapy.com/article/795/


更多python技巧, 欢迎关注!

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python技巧(数据分析及可视化)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值