独家 | Python处理海量数据集的三种方法

本文介绍了数据科学家处理大数据时的三种方法:1) 优化数据类型减少内存占用;2) 使用Pandas的chunksize分块处理数据;3) 利用惰性计算框架如Spark或Dask。
摘要由CSDN通过智能技术生成

434ed8013d154031f1ac2a8053503ec7.png

作者:Georgia Deaconu
翻译:陈超
校对:欧阳锦


本文约1200字,建议阅读5分钟
本文介绍了Python处理数据集的方法。

作为一名数据科学家,我发现自己处理“大数据”的情况越来越多。我叫做大数据的是那些虽然不是很大,但是却足够让我的电脑处理到崩溃并且拖慢其他程序。

03d78a233f29311608a9bad6fa7a8637.png

图片来自 Mika Baumeister UNsplash

这个问题并不新鲜,且对于所有问题而言,从来没有一劳永逸的万能公式。最好的方法依赖于你的数据以及你应用的目的。然而,最流行的解决方法通常在以下描述的分类之中。

1. 通过优化数据类型来减少内存使用

当使用Pandas从文件里加载数据的时候,如果不提前设定,通常会自动推断数据类型。

多数情况下这没什么问题,但是推断的数据类型并不一定是最优的。甚至,如果数值型列数据包括了缺失值,推断数据类型就会自动填充为浮点型。

在我处理大部分表征年、月或日的整型数据的时候

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值