作者:Georgia Deaconu
翻译:陈超
校对:欧阳锦
本文约1200字,建议阅读5分钟
本文介绍了Python处理数据集的方法。
作为一名数据科学家,我发现自己处理“大数据”的情况越来越多。我叫做大数据的是那些虽然不是很大,但是却足够让我的电脑处理到崩溃并且拖慢其他程序。
图片来自 Mika Baumeister UNsplash
这个问题并不新鲜,且对于所有问题而言,从来没有一劳永逸的万能公式。最好的方法依赖于你的数据以及你应用的目的。然而,最流行的解决方法通常在以下描述的分类之中。
1. 通过优化数据类型来减少内存使用
当使用Pandas从文件里加载数据的时候,如果不提前设定,通常会自动推断数据类型。
多数情况下这没什么问题,但是推断的数据类型并不一定是最优的。甚至,如果数值型列数据包括了缺失值,推断数据类型就会自动填充为浮点型。
在我处理大部分表征年、月或日的整型数据的时候