在某些项目中,挑战在于你拥有庞大的数据集,但在任何给定时刻只想查看数据集中定义明确的子集。
解决这一问题的强大方法是利用数据库和它们选择子数据的能力。
创建一个本地数据库
首先,你使用Pandas将数据集写入SQLite数据库。然后,在你想要定义子集的列上创建一个索引。
在这种情况下,我们只在乘客编号列上创建索引,但你可以在多个列上创建更高级的索引。
从数据库中读取
然后,你使用Polars和connectorx——这是Python中从数据库读取数据的最快方式。
在你的SQL语句中添加一个where子句来选择你的子集。数据在读取到数据框之前会在数据库中进行过滤。
从数据库中读取数据的速度并不如使用IPC或Parquet文件快。
然而,当你从大型数据集中选择小部分数据时,数据库方法非常强大。当你只需要与数据库一起工作时,它也很方便!
往期热门文章:
从 Pandas 到 Polars 二十六:在Polars中,不要遍历列
从 Pandas 到 Polars 二十三:如果你的数据已经排序,Polars可以为你提供助力
从 Pandas 到 Polars 十八:数据科学 2025,对未来几年内数据科学领域发展的预测或展望
从 Pandas 到 Polars 十三:流式处理的关键参数
从 Pandas 到 Polars 十:“Polars 表达式“是什么?