从 Pandas 到 Polars 二十四:在Polars中使用Spacy- 第三方库如何与Polars协同工作?

人们向我咨询从Pandas切换到Polars时,经常问到的问题是如何与第三方库一起工作。如果它们不支持Polars怎么办?

然而,通常这并不是什么大问题……

以NLP库Spacy为例。在这里,Spacy以与处理Pandas数据框中的列相同的方式从Polars数据框中获取列。

import spacy
nlp = spacy.load("en_core_web_sm")

doc = nlp(df[0,"text"])
spacy.displacy.render(doc, style="ent")

为什么这可以如此丝滑地工作?因为许多库并不是在寻找pandas数据框的列——它们只是想要一个可迭代对象。pandas的列是一个可迭代对象,但元组、列表或polars数据框的列也是可迭代对象。

另外,polars本身内置了很多转换方法,使其能够与很多常见的第三方库无缝连接,比如:

1. NumPy 和 Pandas

1import polars as pl
2import pandas as pd
3
4# 创建一个 Polars DataFrame
5df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
6
7# 转换为 Pandas DataFrame
8df_pd = df_pl.to_pandas()
9
10# 从 Pandas DataFrame 创建 Polars DataFrame
11df_pl_from_pd = pl.from_pandas(df_pd)

2. Dask

Dask 允许你在单机或多节点集群上进行并行计算。Polars 可以与 Dask 集成,使用 Dask 的分布式计算能力。

import dask.dataframe as dd
import polars as pl

# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})

# 转换为 Dask DataFrame
ddf = dd.from_pandas(df_pl.to_pandas(), npartitions=2)

# 或者使用 Dask 的计算能力处理 Polars DataFrame
# 这需要你自己管理数据分割和分布
ddf = dd.from_delayed([pl.read_parquet(f'file_{i}.parquet').to_dask_array().to_delayed() for i in range(3)])

3. PyTorch 和 TensorFlow

在机器学习流程中,你可能需要将数据从 Polars 转换为 PyTorch 或 TensorFlow 张量。

import polars as pl
import torch

# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})

# 转换为 PyTorch Tensor
tensor = torch.tensor(df_pl.to_numpy())

# 或者,如果需要转换特定列
tensor_A = torch.tensor(df_pl["A"].to_numpy())

4. Plotting Libraries 如 Matplotlib 和 Seaborn

数据可视化是数据分析的重要组成部分。Polars 本身不包含绘图功能,但可以轻松地与如 Matplotlib 和 Seaborn 等库集成。

import polars as pl
import matplotlib.pyplot as plt

# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"x": [1, 2, 3], "y": [4, 5, 6]})

# 转换为 Pandas DataFrame 并绘制
df_pd = df_pl.to_pandas()
plt.plot(df_pd['x'], df_pd['y'])
plt.show()

5. SQL 查询

Polars 支持通过 Arrow Flight SQL 与支持此协议的数据库交互。

#-- 假设有一个远程 SQL 数据库支持 Arrow Flight SQL
#-- 使用 Polars 的 `read_database` 方法读取数据
df = pl.read_database(
    query="SELECT * FROM my_table",
    connection_uri="arrow-flight://user:pass@host:port/database"
)
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值