python中Polars库详解

python中的Polars库

什么是polars

Polars 是一个用于数据处理的 Python 库,提供了类似于 Pandas 的 API,但却更加快速和内存高效。

Polars 能够处理非常大的数据集,并在运行时对其进行快速操作。它具有类似 Pandas 的 API,可以进行诸如筛选、聚合和转换等常见操作。此外,Polars 还提供了一个更加直观和易于使用的 API,可以让你轻松地使用一些复杂的数据处理技术。

常用函数

1.read_csv()
read_csv() 函数用于从 CSV 文件中读取数据,并返回一个 DataFrame 对象。该函数可以接受多种参数,例如文件路径、列分隔符、行分隔符等。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')

2.head()
head() 函数用于返回 DataFrame 中的前 n 行数据,默认为 5 行。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
print(df.head())

3.filter()
filter() 函数用于根据指定的条件筛选 DataFrame 中的行数据。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)

4.select()
select() 函数用于选择 DataFrame 中的列数据。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)

5.groupby()
groupby() 函数用于对 DataFrame 中的数据进行分组,并对分组后的数据进行聚合操作。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)

.agg() 是 Polars 库中用于对 DataFrame 进行聚合操作的函数。它可以接受一个字典参数,用于指定要聚合的列以及要使用的聚合函数。

  1. join()
    join() 函数用于将两个 DataFrame 中的数据根据指定的列进行连接操作。

示例代码:

import polars as pl

df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)

7.sort()
sort() 函数用于根据指定的列对 DataFrame 中的数据进行排序操作。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)

8.fill_null()
fill_null() 函数用于将 DataFrame 中的空值填充为指定的值。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)

9.describe()
describe() 函数用于生成 DataFrame 中的数值列的描述性统计信息,包括计数、平均数、标准差、最小值、最大值等。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
description = df.describe()
print(description)

10.pl.DataFrame
pl.DataFrame 是 Polars 库中用于创建 DataFrame 对象的类。DataFrame 是一种二维表格数据结构,其中每一列可以是不同的数据类型,类似于 Excel 表格或者 SQL 中的数据表。

示例代码:

import polars as pl

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
}

df = pl.DataFrame(data)
print(df)

在上面的示例代码中,我们首先定义了一个字典 data,其中包含了三个键值对,分别表示 name、age 和 gender 三列数据。接着,我们使用 pl.DataFrame 类创建了一个 DataFrame 对象 df,将 data 作为构造函数的参数传入。最后,我们打印输出了 df 对象的值。
11..col
.col 是 Polars 库中用于选择 DataFrame 中的一列数据的方法,它返回一个 Series 对象。在 Polars 中,DataFrame 对象由多个 Series 对象组成,每个 Series 对象表示一列数据。
示例代码:

import polars as pl

df = pl.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
})

age_col = df.col('age')
print(age_col)

在上面的示例代码中,我们首先创建了一个 DataFrame 对象,然后使用 col() 方法选择了 age 列数据,将其赋值给 age_col 变量。最后,我们打印输出了 age_col 变量的值,它是一个 Series 对象,表示 age 列数据。

使用 col() 方法可以方便地选择 DataFrame 中的一列数据,并对其进行操作,例如计算该列的平均值、最大值等等。同时,也可以对多列数据使用 select() 方法选择多列,然后对多列进行操作。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值