Polars DS Extension 项目教程
1. 项目介绍
Polars DS Extension 是一个专为数据科学应用场景设计的 Polars 扩展库。它以数据框为中心,通过 Polars 提供并行处理能力,使得数据处理更加高效。该库不仅支持 Polars 语法,还提供了许多常用的数据科学功能,如 NumPy、SciPy 中的函数、编辑距离计算、KNN 查询、EDA 工具和特征工程查询等。此外,大部分代码已用 Rust 重写,性能与 SciPy 和 Scikit-learn 相当甚至更优。
2. 项目快速启动
安装
首先,确保你已经安装了 Polars。然后,通过 pip 安装 Polars DS Extension:
pip install polars-ds
基本使用
以下是一个简单的示例,展示如何使用 Polars DS Extension 进行分类指标的并行评估:
import polars as pl
import polars_ds as pds
# 创建一个示例数据框
df = pl.DataFrame({
"segments": ["a", "a", "b", "b"],
"actual": [1, 0, 1, 0],
"predicted": [0.9, 0.1, 0.8, 0.2]
})
# 使用 Polars DS Extension 进行并行评估
result = df.lazy() \
.group_by("segments") \
.agg(
pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
pds.query_log_loss("actual", "predicted").alias("log_loss")
) \
.collect()
print(result)
3. 应用案例和最佳实践
案例1:分类指标的并行评估
在数据科学项目中,分类指标的评估是常见任务。Polars DS Extension 提供了并行评估分类指标的功能,大大提高了处理速度。
import polars as pl
import polars_ds as pds
df = pl.DataFrame({
"segments": ["a", "a", "b", "b"],
"actual": [1, 0, 1, 0],
"predicted": [0.9, 0.1, 0.8, 0.2]
})
result = df.lazy() \
.group_by("segments") \
.agg(
pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
pds.query_log_loss("actual", "predicted").alias("log_loss")
) \
.collect()
print(result)
案例2:字符串编辑距离计算
在文本处理中,字符串编辑距离是一个重要的度量标准。Polars DS Extension 提供了多种字符串编辑距离的计算方法。
import polars as pl
import polars_ds as pds
df = pl.DataFrame({
"word": ["apple", "banana", "cherry"]
})
result = df.select(
pds.str_leven("word", pl.lit("apples"), return_sim=True).alias("Levenshtein"),
pds.str_osa("word", pl.lit("apples"), return_sim=True).alias("Optimal String Alignment"),
pds.str_jw("word", pl.lit("apples")).alias("Jaro-Winkler")
)
print(result)
4. 典型生态项目
Polars DS Extension 作为一个数据科学工具,可以与许多其他数据科学和机器学习库结合使用,如:
- Polars: 作为核心数据处理库,提供高效的数据框操作。
- NumPy: 用于数值计算和数组操作。
- SciPy: 提供科学计算工具,如统计测试和优化。
- Scikit-learn: 用于机器学习模型的训练和评估。
通过这些库的结合,Polars DS Extension 可以构建完整的数据科学工作流,从数据处理到模型训练和评估。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考