从 Pandas 到 Polars 三十五:使用Polars从数据库中加载数据

在某些项目中,挑战在于你拥有庞大的数据集,但在任何给定时刻只想查看数据集中定义明确的子集。

解决这一问题的强大方法是利用数据库和它们选择子数据的能力。

创建一个本地数据库

首先,你使用Pandas将数据集写入SQLite数据库。然后,在你想要定义子集的列上创建一个索引。

在这种情况下,我们只在乘客编号列上创建索引,但你可以在多个列上创建更高级的索引。

从数据库中读取

然后,你使用Polars和connectorx——这是Python中从数据库读取数据的最快方式。

在你的SQL语句中添加一个where子句来选择你的子集。数据在读取到数据框之前会在数据库中进行过滤。

从数据库中读取数据的速度并不如使用IPC或Parquet文件快。

然而,当你从大型数据集中选择小部分数据时,数据库方法非常强大。当你只需要与数据库一起工作时,它也很方便!

  往期热门文章:

从 Pandas 到 Polars 二十六:在Polars中,不要遍历列

从 Pandas 到 Polars 二十三:如果你的数据已经排序,Polars可以为你提供助力

从 Pandas 到 Polars 十八:数据科学 2025,对未来几年内数据科学领域发展的预测或展望

从 Pandas 到 Polars 十三:流式处理的关键参数

从 Pandas 到 Polars 十:“Polars 表达式“是什么?

从 Pandas 到 Polars 六:在 Polars 中流式处理大型数据集

从 Pandas 到 Polars 0:理解Polars嵌套列类型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值