简介
在 Python 中处理海量数据集一直是一个挑战。该语言并不像原生 SQL 系统或 Spark 那样适合处理大量数据。
毫无疑问,Python 中处理二维数据集最著名的库是pandas 。虽然 Pandas 易于使用且被每个数据科学家使用,但它是用 Python 和 C 编写的,因此在处理大数据时有点复杂且速度慢。如果您是一名数据科学家,您一定经历过等待 200 年才能完成group by的痛苦。
旨在解决这一问题的库之一是polars —一个非常高效的 Python 包,能够处理大型数据集,主要原因如下:
它是用 Rust 编写的
它自动利用多线程
它通过使用惰性求值来推迟大多数计算
而且……从今天起,您现在可以利用 NVIDIA 的硬件来最大限度地发挥Polars的 GPU 引擎功能。这真的太疯狂了!
在这篇博文中,我们将了解如何利用polars+GPU并极大地加快数据管道的速度。