python读取大文件csv_CSV文件读取性能大决战:Julia 、Python与R语言 - Deepak

任何数据分析工作流程中的首要任务就是简单地读取数据,而这绝对必须快速而有效地完成,这样才能开始更有趣的工作。在许多行业和领域中,CSV文件格式都是存储和共享表格数据的主要工具。快速而强大地加载CSV是至关重要的,并且必须在各种文件大小,数据类型和形状之间很好地扩展。这篇文章比较了在三个不同的CSV解析器中读取8个不同的真实数据集的性能:R的fread,Pandas的read_csv和Julia的CSV.jl,每个库都被选为“同类最佳” CSV解析器。

多线程对于实现当今计算机的最佳性能至关重要,但是只有一种语言(Julia)能够始终如一地有效使用多个内核。

基准测试表明,即使在限制单个内核的情况下,Julia的CSV.jl也比Pandas快1.5至5倍;启用多线程后,速度可以提高20倍以上。R的fread支持多线程,因此更具竞争力,但在许多数据集中,它仍然比Julia落后10倍或更多。用于基准测试的工具是用于Julia的BenchmarkTools.jl,用于R的microbenchmark和用于Python的timeit。

详细分析点击标题进入原文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值