Polars DS Extension 项目教程

Polars DS Extension 项目教程

polars_ds_extension Polars extension for general data science use cases 项目地址: https://gitcode.com/gh_mirrors/po/polars_ds_extension

1. 项目介绍

Polars DS Extension 是一个专为数据科学应用场景设计的 Polars 扩展库。它以数据框为中心,通过 Polars 提供并行处理能力,使得数据处理更加高效。该库不仅支持 Polars 语法,还提供了许多常用的数据科学功能,如 NumPy、SciPy 中的函数、编辑距离计算、KNN 查询、EDA 工具和特征工程查询等。此外,大部分代码已用 Rust 重写,性能与 SciPy 和 Scikit-learn 相当甚至更优。

2. 项目快速启动

安装

首先,确保你已经安装了 Polars。然后,通过 pip 安装 Polars DS Extension:

pip install polars-ds

基本使用

以下是一个简单的示例,展示如何使用 Polars DS Extension 进行分类指标的并行评估:

import polars as pl
import polars_ds as pds

# 创建一个示例数据框
df = pl.DataFrame({
    "segments": ["a", "a", "b", "b"],
    "actual": [1, 0, 1, 0],
    "predicted": [0.9, 0.1, 0.8, 0.2]
})

# 使用 Polars DS Extension 进行并行评估
result = df.lazy() \
    .group_by("segments") \
    .agg(
        pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
        pds.query_log_loss("actual", "predicted").alias("log_loss")
    ) \
    .collect()

print(result)

3. 应用案例和最佳实践

案例1:分类指标的并行评估

在数据科学项目中,分类指标的评估是常见任务。Polars DS Extension 提供了并行评估分类指标的功能,大大提高了处理速度。

import polars as pl
import polars_ds as pds

df = pl.DataFrame({
    "segments": ["a", "a", "b", "b"],
    "actual": [1, 0, 1, 0],
    "predicted": [0.9, 0.1, 0.8, 0.2]
})

result = df.lazy() \
    .group_by("segments") \
    .agg(
        pds.query_roc_auc("actual", "predicted").alias("roc_auc"),
        pds.query_log_loss("actual", "predicted").alias("log_loss")
    ) \
    .collect()

print(result)

案例2:字符串编辑距离计算

在文本处理中,字符串编辑距离是一个重要的度量标准。Polars DS Extension 提供了多种字符串编辑距离的计算方法。

import polars as pl
import polars_ds as pds

df = pl.DataFrame({
    "word": ["apple", "banana", "cherry"]
})

result = df.select(
    pds.str_leven("word", pl.lit("apples"), return_sim=True).alias("Levenshtein"),
    pds.str_osa("word", pl.lit("apples"), return_sim=True).alias("Optimal String Alignment"),
    pds.str_jw("word", pl.lit("apples")).alias("Jaro-Winkler")
)

print(result)

4. 典型生态项目

Polars DS Extension 作为一个数据科学工具,可以与许多其他数据科学和机器学习库结合使用,如:

  • Polars: 作为核心数据处理库,提供高效的数据框操作。
  • NumPy: 用于数值计算和数组操作。
  • SciPy: 提供科学计算工具,如统计测试和优化。
  • Scikit-learn: 用于机器学习模型的训练和评估。

通过这些库的结合,Polars DS Extension 可以构建完整的数据科学工作流,从数据处理到模型训练和评估。

polars_ds_extension Polars extension for general data science use cases 项目地址: https://gitcode.com/gh_mirrors/po/polars_ds_extension

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明俪钧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值