人们向我咨询从Pandas切换到Polars时,经常问到的问题是如何与第三方库一起工作。如果它们不支持Polars怎么办?
然而,通常这并不是什么大问题……
以NLP库Spacy为例。在这里,Spacy以与处理Pandas数据框中的列相同的方式从Polars数据框中获取列。
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(df[0,"text"])
spacy.displacy.render(doc, style="ent")
为什么这可以如此丝滑地工作?因为许多库并不是在寻找pandas数据框的列——它们只是想要一个可迭代对象。pandas的列是一个可迭代对象,但元组、列表或polars数据框的列也是可迭代对象。
另外,polars本身内置了很多转换方法,使其能够与很多常见的第三方库无缝连接,比如:
1. NumPy 和 Pandas
1import polars as pl
2import pandas as pd
3
4# 创建一个 Polars DataFrame
5df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
6
7# 转换为 Pandas DataFrame
8df_pd = df_pl.to_pandas()
9
10# 从 Pandas DataFrame 创建 Polars DataFrame
11df_pl_from_pd = pl.from_pandas(df_pd)
2. Dask
Dask 允许你在单机或多节点集群上进行并行计算。Polars 可以与 Dask 集成,使用 Dask 的分布式计算能力。
import dask.dataframe as dd
import polars as pl
# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
# 转换为 Dask DataFrame
ddf = dd.from_pandas(df_pl.to_pandas(), npartitions=2)
# 或者使用 Dask 的计算能力处理 Polars DataFrame
# 这需要你自己管理数据分割和分布
ddf = dd.from_delayed([pl.read_parquet(f'file_{i}.parquet').to_dask_array().to_delayed() for i in range(3)])
3. PyTorch 和 TensorFlow
在机器学习流程中,你可能需要将数据从 Polars 转换为 PyTorch 或 TensorFlow 张量。
import polars as pl
import torch
# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
# 转换为 PyTorch Tensor
tensor = torch.tensor(df_pl.to_numpy())
# 或者,如果需要转换特定列
tensor_A = torch.tensor(df_pl["A"].to_numpy())
4. Plotting Libraries 如 Matplotlib 和 Seaborn
数据可视化是数据分析的重要组成部分。Polars 本身不包含绘图功能,但可以轻松地与如 Matplotlib 和 Seaborn 等库集成。
import polars as pl
import matplotlib.pyplot as plt
# 创建一个 Polars DataFrame
df_pl = pl.DataFrame({"x": [1, 2, 3], "y": [4, 5, 6]})
# 转换为 Pandas DataFrame 并绘制
df_pd = df_pl.to_pandas()
plt.plot(df_pd['x'], df_pd['y'])
plt.show()
5. SQL 查询
Polars 支持通过 Arrow Flight SQL 与支持此协议的数据库交互。
#-- 假设有一个远程 SQL 数据库支持 Arrow Flight SQL
#-- 使用 Polars 的 `read_database` 方法读取数据
df = pl.read_database(
query="SELECT * FROM my_table",
connection_uri="arrow-flight://user:pass@host:port/database"
)