Polars DS Extension 项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00026/article/details/139614682

Polars DS Extension 项目教程

polars_ds_extension Polars extension for general data science use cases 项目地址: https://gitcode.com/gh_mirrors/po/polars_ds_extension

1. 项目介绍

Polars DS Extension 是一个专为数据科学应用场景设计的 Polars 扩展库。它以数据框为中心，通过 Polars 提供并行处理能力，使得数据处理更加高效。该库不仅支持 Polars 语法，还提供了许多常用的数据科学功能，如 NumPy、SciPy 中的函数、编辑距离计算、KNN 查询、EDA 工具和特征工程查询等。此外，大部分代码已用 Rust 重写，性能与 SciPy 和 Scikit-learn 相当甚至更优。

2. 项目快速启动

安装

首先，确保你已经安装了 Polars。然后，通过 pip 安装 Polars DS Extension：

pip install polars-ds

基本使用

以下是一个简单的示例，展示如何使用 Polars DS Extension 进行分类指标的并行评估：

import polars as pl
import polars_ds as pds

# 创建一个示例数据框
df = pl.DataFrame({
    "segments": ["a", "a", "b", "b"],
    "actual": [1, 0, 1, 0],
    "predicted": [0.9, 0.1, 0.8, 0.2]
})

# 使用 Polars DS Extension 进行并行评估
result = df.lazy() \
    .group_by("segments") \
    .agg(
        pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
        pds.query_log_loss("actual", "predicted").alias("log_loss")
    ) \
    .collect()

print(result)

3. 应用案例和最佳实践

案例1：分类指标的并行评估

在数据科学项目中，分类指标的评估是常见任务。Polars DS Extension 提供了并行评估分类指标的功能，大大提高了处理速度。

import polars as pl
import polars_ds as pds

df = pl.DataFrame({
    "segments": ["a", "a", "b", "b"],
    "actual": [1, 0, 1, 0],
    "predicted": [0.9, 0.1, 0.8, 0.2]
})

result = df.lazy() \
    .group_by("segments") \
    .agg(
        pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
        pds.query_log_loss("actual", "predicted").alias("log_loss")
    ) \
    .collect()

print(result)

案例2：字符串编辑距离计算

在文本处理中，字符串编辑距离是一个重要的度量标准。Polars DS Extension 提供了多种字符串编辑距离的计算方法。

import polars as pl
import polars_ds as pds

df = pl.DataFrame({
    "word": ["apple", "banana", "cherry"]
})

result = df.select(
    pds.str_leven("word", pl.lit("apples"), return_sim=True).alias("Levenshtein"),
    pds.str_osa("word", pl.lit("apples"), return_sim=True).alias("Optimal String Alignment"),
    pds.str_jw("word", pl.lit("apples")).alias("Jaro-Winkler")
)

print(result)