Pandas处理数据，基本应用

小路的蹊

于 2024-09-08 15:38:51 发布

阅读量1k

点赞数 17

文章标签： pandas python

本文链接：https://blog.csdn.net/m0_66111719/article/details/142027826

版权

Pandas是一个Python包，提供快速、灵活且表达力强的数据结构，旨在使处理“关系型”或“带标签”数据。专门设计用于进行数据分析和操作，它是建立在numpy之上，提供了易于使用的数据结构和数据分析工具。Pandas最主要的数据结构是DataFrame和Series。

主要特点：

数据结构：

Series：一种类似于一维数组的对象，可以存储任何数据类型（整数、字符串、浮点数等）。Series有一个关联的索引，这个索引默认是整数，但也可以是任何唯一的可哈希对象。
DataFrame：类似于二维大小可变的、由不同类型的列组成的表格，具有行标签和列标签。DataFrame可以被看作是由多个Series组成的集合。

数据操作：

Pandas提供了多种方法来操作数据，包括但不限于：添加、删除数据，选择子集，排序数据，合并数据集，处理缺失数据等。

数据清洗:

提供了许多方便的方法来清洗数据，如去除重复项、填充或删除缺失值、替换值等。

时间序列功能：

Pandas在处理时间序列数据方面非常强大，支持日期范围的生成、频率转换以及移动窗口统计等。

读写文件格式：

支持多种数据格式的读取和写入，例如CSV、Excel、SQL数据库等。

3. 按标签选择：df.loc[row, col]

4. 按位置选择：df.iloc[row, col]

处理缺失值

df.dropna(): 删除含有缺失值的行或列

df.fillna(value): 用特定值填充缺失值。

Pandas数据表格表示

一个DataFrame中的每一列都是Series

安装Pandas

Pandas可以通过pip或conda安装：

pip install pandas

创建一个DataFrame

当使用Python列表字典时，字典键将用作列标题，每个列表中的值将用作DataFrame的列

import pandas as pd
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

选择pandas DataFrame的单个列时，结果是一个pandas Series，选择该列：在方括号[]中使用列标签。

读取数据

从csv文件读取数据：

pd.read_csv('data_path.csv')

从Excel文件读取数据：

pd.read_excel('data_path.xlsx')

查看数据

df.head(n): 查看前n行，默认前5行。
df.tail(n): 查看最后n行，默认最后5行。
df.describe(): 提供数据的基本统计摘要。

df.info(): 显示DataFrame的信息概览。

数据选择

1. 方括号[]选择单列或多列

# 单列
df['col1']
# 多列
df[['col1', 'col2']]

2. 条件表达式选择，在方括号内部

df[df['col1'] > 33]
df[df['col2'].isin(['v1', v2])]

3. 按标签选择：df.loc[row, col]

有效输入：单个标签，标签列表或数组，切片对象，例：

df.loc[1, 'col'] # 选择行索引为1，列标签为'col'的数据
df.loc[[1,2,4], 'col'] # 选择行索引为1，2，4，列标签为'col'的数据
df.loc[[1,2,4], ['col1', 'col2']] # 选择行索引为1，2，4，列标签为'col1'和'col2'的数据

df.loc[1:3, 'col'] # 行切片，包头包尾
df.loc[1:3, 'col1':'col3'] # 多行多列，包头包尾

4. 按位置选择：df.iloc[row, col]

有效输入：一个整数，一个整数列表或数组，一个带有整数的切片对象

df.iloc[2,3] # 获取单个元素，行索引2，列索引3的数据
df.iloc[[1,3,5], [0,1]] # 获取多行多列，行索引1，3，5 列索引0，1的数据

# 切片选择
df.iloc[2:5, 0:3] # 包头不包尾

处理缺失值

df.dropna(): 删除含有缺失值的行或列

常用的参数及其说明：

axis：指定是要删除行还是列中的 NaN 值。

如果 axis=0 或 axis='index'，则删除包含 NaN 的行。

如果 axis=1 或 axis='columns'，则删除包含 NaN 的列。

how：指定如何判断哪些行或列应该被删除。

'any'：如果至少有一个 NaN，则该行/列会被删除（默认值）。

'all'：只有当所有值都是 NaN 时才删除该行/列。

thresh：设置每行或每列中非空值的最小数量。如果某行或某列的非空值少于这个阈值，则该行/列将被删除。

subset：指定 DataFrame 的一个子集（列），只在这个子集中检查 NaN 值。
inplace：如果设置为 True，则直接修改原始 DataFrame；如果为 False（默认），则返回一个新的 DataFrame 并保留原 DataFrame 不变。

df.fillna(value): 用特定值填充缺失值。

数据清洗

删除不需要的列.drop

df.drop(columns=['col_name']): 删除'col_name'列

重命名列.rename

df.rename(columns={'old_name': 'new_name'})

检测重复值

df.duplicated(subset=['col_name'])

去除重复行

df.drop_duplicates(subset=['所属板块'], keep='first')

keep属性：first/last/False：保留每个重复组中

apply函数

apply函数允许用户沿着DataFrame的某个轴应用自定义函数

DataFrame.apply(func, axis=0)

func：一个函数
axis：0沿列方向，1沿行方向应用

Series.apply(func, axis=0)

例：

新增一列，是col列数据*2

df['new_col'] = df['col'].apply(lambda x: x*2)

分组与聚合

groupby和agg按照指定列进行分组，然后进行聚合统计

# 按照'col1'列分组，统计分组后'col2'列的平均值
df.group('col1')['col2'].mean()

df.groupby('所属板块').agg({'阅读人次': 'mean', '发布时间':'min'})

合并数据

pd.concat([df1, df2])：垂直（默认，axix=0）或水平连接（axis=1）两个DataFrame

pd.merge(left, right, on='key'): 内连接或外连接两个DataFrame

小路的蹊

关注

17
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫