Polars学习-常用函数代码

下载包


导入包


数据读写

import polars as pl
from datetime import datetime
 
df = pl.DataFrame(
    {
        "integer": [1, 2, 3],
        "date": [
            datetime(2022, 1, 1),
            datetime(2022, 1, 2),
            datetime(2022, 1, 3),
        ],
        "float": [4.0, 5.0, 6.0],
    }
) 
print(df)
df.write_csv("output.csv")
df_csv = pl.read_csv("output.csv")
print(df_csv)
df_csv = pl.read_csv("output.csv", try_parse_dates=True)
print(df_csv)

增加列

删除

查找

head() 函数用于返回 DataFrame 中的前 n 行数据,默认为 5 行。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
print(df.head())

3.filter()
filter() 函数用于根据指定的条件筛选 DataFrame 中的行数据。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)

查找一列元素

.col
.col 是 Polars 库中用于选择 DataFrame 中的一列数据的方法,它返回一个 Series 对象。在 Polars 中,DataFrame 对象由多个 Series 对象组成,每个 Series 对象表示一列数据。
示例代码:

import polars as pl

df = pl.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
})

age_col = df.col('age')
print(age_col)

sort()
sort() 函数用于根据指定的列对 DataFrame 中的数据进行排序操作。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)

1. 选择和筛选数据

若要从 DataFrame 中选择特定列,可以使用 select() 该方法。下面是一个示例:

import polars as pl
 
 
# Load diamond data from a CSV file
df = pl.read_csv('https://raw.githubusercontent.com/pycaret/pycaret/master/datasets/diamond.csv')
 
 
# Select specific columns: carat, cut, and price
selected_df = df.select(['Carat Weight', 'Cut', 'Price'])
 
 
# show selected_df head
selected_df.head()

修改

fill_null()
fill_null() 函数用于将 DataFrame 中的空值填充为指定的值。

import polars as pl
df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)

遍历

条件查询

创建dataframe

pl.DataFrame
pl.DataFrame 是 Polars 库中用于创建 DataFrame 对象的类。DataFrame 是一种二维表格数据结构,其中每一列可以是不同的数据类型,类似于 Excel 表格或者 SQL 中的数据表。

示例代码:

import polars as pl

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
}

df = pl.DataFrame(data)
print(df)

连接

join()
join() 函数用于将两个 DataFrame 中的数据根据指定的列进行连接操作。

示例代码:

import polars as pl
df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)

透视表-聚合函数

5.groupby()
groupby() 函数用于对 DataFrame 中的数据进行分组,并对分组后的数据进行聚合操作。

示例代码:

import polars as pl
df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)

.pivot

df.pivot(index='left', columns='center', values='right', aggregate_function='sum')

合并-填充

投影

4.select()
select() 函数用于选择 DataFrame 中的列数据。

示例代码:

import polars as pl

df = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值