head(n)
: 返回前 n 行数据,默认为前 5 行。tail(n)
: 返回后 n 行数据,默认为后 5 行。shape
: 返回 DataFrame 的维度,即行数和列数。info()
: 显示 DataFrame 的基本信息,包括列名、数据类型和非空值数量等。describe()
: 显示 DataFrame 的统计摘要,包括计数、均值、标准差、最小值、最大值等统计信息。columns
: 返回 DataFrame 的列名列表。index
: 返回 DataFrame 的索引值列表。loc[row_label, col_label]
: 通过标签获取特定行和列的数据。iloc[row_index, col_index]
: 通过位置索引获取特定行和列的数据。fillna(value)
: 将缺失值填充为指定的值。dropna()
: 删除包含缺失值的行。sort_values(by, ascending=True)
: 按指定列的值对 DataFrame 进行排序。groupby(by)
: 按指定列进行分组操作。merge(other_df, on='column_name')
: 根据指定列将两个 DataFrame 进行合并。pivot_table(values, index, columns, aggfunc)
: 创建透视表,根据指定的值、行、列和聚合函数进行数据汇总。apply(func)
: 对 DataFrame 的每个元素应用指定的函数。map(dict_or_func)
: 根据字典或函数映射 Series 或 DataFrame 的值
##在Pandas中,groupby()是非常常用的一个分组函数,它可以将DataFrame进行分组,非常适合对数据进行拆分、应用和合并。需要注意的是,在分组前通常需要对DataFrame进行排序,这样可以保证同一组的数据聚集在一起,便于操作。
#按照一列或者多列进行分组
df.groupby('列名')
# 或
df.groupby(['列名1','列名2'])
#分组后聚合运算
df.groupby('列名').sum()
df.groupby('列名').mean()
#在分组上应用变换
df.groupby('列名').transform(lambda x: x + 100)
#在分组上进行迭代
for name, group in df.groupby('列名'):
print(name)
print(group)
#按分组进行筛选
df.groupby('列名').filter(lambda x: x['count'] > 2)