python中Polars库详解

Jerry_819

已于 2023-04-22 10:49:14 修改

阅读量3.2k

点赞数 3

文章标签： python 数据分析数据挖掘

于 2023-04-22 10:49:06 首次发布

本文链接：https://blog.csdn.net/m0_68678046/article/details/130301656

版权

python中的Polars库

什么是polars

Polars 是一个用于数据处理的 Python 库，提供了类似于 Pandas 的 API，但却更加快速和内存高效。

Polars 能够处理非常大的数据集，并在运行时对其进行快速操作。它具有类似 Pandas 的 API，可以进行诸如筛选、聚合和转换等常见操作。此外，Polars 还提供了一个更加直观和易于使用的 API，可以让你轻松地使用一些复杂的数据处理技术。

常用函数

1.read_csv()
read_csv() 函数用于从 CSV 文件中读取数据，并返回一个 DataFrame 对象。该函数可以接受多种参数，例如文件路径、列分隔符、行分隔符等。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')

2.head()
head() 函数用于返回 DataFrame 中的前 n 行数据，默认为 5 行。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
print(df.head())

3.filter()
filter() 函数用于根据指定的条件筛选 DataFrame 中的行数据。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)

4.select()
select() 函数用于选择 DataFrame 中的列数据。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)

5.groupby()
groupby() 函数用于对 DataFrame 中的数据进行分组，并对分组后的数据进行聚合操作。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)

.agg() 是 Polars 库中用于对 DataFrame 进行聚合操作的函数。它可以接受一个字典参数，用于指定要聚合的列以及要使用的聚合函数。

join()
join() 函数用于将两个 DataFrame 中的数据根据指定的列进行连接操作。

示例代码：

import polars as pl

df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)

7.sort()
sort() 函数用于根据指定的列对 DataFrame 中的数据进行排序操作。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)

8.fill_null()
fill_null() 函数用于将 DataFrame 中的空值填充为指定的值。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)

9.describe()
describe() 函数用于生成 DataFrame 中的数值列的描述性统计信息，包括计数、平均数、标准差、最小值、最大值等。

示例代码：

import polars as pl

df = pl.read_csv('data.csv')
description = df.describe()
print(description)

10.pl.DataFrame
pl.DataFrame 是 Polars 库中用于创建 DataFrame 对象的类。DataFrame 是一种二维表格数据结构，其中每一列可以是不同的数据类型，类似于 Excel 表格或者 SQL 中的数据表。

示例代码：

import polars as pl

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
}

df = pl.DataFrame(data)
print(df)

在上面的示例代码中，我们首先定义了一个字典 data，其中包含了三个键值对，分别表示 name、age 和 gender 三列数据。接着，我们使用 pl.DataFrame 类创建了一个 DataFrame 对象 df，将 data 作为构造函数的参数传入。最后，我们打印输出了 df 对象的值。
11..col
.col 是 Polars 库中用于选择 DataFrame 中的一列数据的方法，它返回一个 Series 对象。在 Polars 中，DataFrame 对象由多个 Series 对象组成，每个 Series 对象表示一列数据。
示例代码：

import polars as pl

df = pl.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
})

age_col = df.col('age')
print(age_col)