Pandas处理数据,基本应用

Pandas是一个Python包,提供快速、灵活且表达力强的数据结构,旨在使处理“关系型”或“带标签”数据。专门设计用于进行数据分析和操作,它是建立在numpy之上,提供了易于使用的数据结构和数据分析工具。Pandas最主要的数据结构是DataFrame和Series。

主要特点:

  1. 数据结构:
  • Series:一种类似于一维数组的对象,可以存储任何数据类型(整数、字符串、浮点数等)。Series有一个关联的索引,这个索引默认是整数,但也可以是任何唯一的可哈希对象。
  • DataFrame:类似于二维大小可变的、由不同类型的列组成的表格,具有行标签和列标签。DataFrame可以被看作是由多个Series组成的集合。
  1. 数据操作:
  • Pandas提供了多种方法来操作数据,包括但不限于:添加、删除数据,选择子集,排序数据,合并数据集,处理缺失数据等。
  1. 数据清洗:
  • 提供了许多方便的方法来清洗数据,如去除重复项、填充或删除缺失值、替换值等。
  1. 时间序列功能:
  • Pandas在处理时间序列数据方面非常强大,支持日期范围的生成、频率转换以及移动窗口统计等。
  1. 读写文件格式:
  • 支持多种数据格式的读取和写入,例如CSV、Excel、SQL数据库等。

目录

安装Pandas

创建一个DataFrame

读取数据

查看数据

数据选择

1. 方括号[]选择单列或多列

2. 条件表达式选择,在方括号内部

3. 按标签选择:df.loc[row, col]

4. 按位置选择:df.iloc[row, col]

处理缺失值

df.dropna(): 删除含有缺失值的行或列

df.fillna(value): 用特定值填充缺失值。

数据清洗

删除不需要的列.drop

重命名列.rename

检测重复值

去除重复行

apply函数

分组与聚合

合并数据


Pandas数据表格表示

一个DataFrame中的每一列都是Series

安装Pandas

Pandas可以通过pip或conda安装:

pip install pandas

创建一个DataFrame

当使用Python列表字典时,字典键将用作列标题,每个列表中的值将用作DataFrame的列

import pandas as pd
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

选择pandas DataFrame的单个列时,结果是一个pandas Series,选择该列:在方括号[]中使用列标签。

读取数据

从csv文件读取数据:

pd.read_csv('data_path.csv')

从Excel文件读取数据:

pd.read_excel('data_path.xlsx')

查看数据

  • df.head(n): 查看前n行,默认前5行。
  • df.tail(n): 查看最后n行,默认最后5行。
  • df.describe(): 提供数据的基本统计摘要。

  • df.info(): 显示DataFrame的信息概览。

数据选择

1. 方括号[]选择单列或多列

# 单列
df['col1']
# 多列
df[['col1', 'col2']]

2. 条件表达式选择,在方括号内部

df[df['col1'] > 33]
df[df['col2'].isin(['v1', v2])]

3. 按标签选择:df.loc[row, col]

有效输入:单个标签,标签列表或数组,切片对象,例:

df.loc[1, 'col'] # 选择行索引为1,列标签为'col'的数据
df.loc[[1,2,4], 'col'] # 选择行索引为1,2,4,列标签为'col'的数据
df.loc[[1,2,4], ['col1', 'col2']] # 选择行索引为1,2,4,列标签为'col1'和'col2'的数据

df.loc[1:3, 'col'] # 行切片,包头包尾
df.loc[1:3, 'col1':'col3'] # 多行多列,包头包尾

4. 按位置选择:df.iloc[row, col]

有效输入:一个整数,一个整数列表或数组,一个带有整数的切片对象

df.iloc[2,3] # 获取单个元素,行索引2,列索引3的数据
df.iloc[[1,3,5], [0,1]] # 获取多行多列,行索引1,3,5 列索引0,1的数据

# 切片选择
df.iloc[2:5, 0:3] # 包头不包尾

处理缺失值

df.dropna(): 删除含有缺失值的行或列

常用的参数及其说明:

  • axis:指定是要删除行还是列中的 NaN 值。

如果 axis=0 或 axis='index',则删除包含 NaN 的行。

如果 axis=1 或 axis='columns',则删除包含 NaN 的列。

  • how:指定如何判断哪些行或列应该被删除。

'any':如果至少有一个 NaN,则该行/列会被删除(默认值)。

'all':只有当所有值都是 NaN 时才删除该行/列。

thresh:设置每行或每列中非空值的最小数量。如果某行或某列的非空值少于这个阈值,则该行/列将被删除。

  • subset:指定 DataFrame 的一个子集(列),只在这个子集中检查 NaN 值。
  • inplace:如果设置为 True,则直接修改原始 DataFrame;如果为 False(默认),则返回一个新的 DataFrame 并保留原 DataFrame 不变。

df.fillna(value): 用特定值填充缺失值。

数据清洗

删除不需要的列.drop

df.drop(columns=['col_name']): 删除'col_name'列

重命名列.rename

df.rename(columns={'old_name': 'new_name'})

检测重复值

df.duplicated(subset=['col_name'])

去除重复行

df.drop_duplicates(subset=['所属板块'], keep='first')

keep属性:first/last/False:保留每个重复组中
 

apply函数

apply函数允许用户沿着DataFrame的某个轴应用自定义函数

DataFrame.apply(func, axis=0)

  • func:一个函数
  • axis:0沿列方向,1沿行方向应用

Series.apply(func, axis=0)

例:

新增一列,是col列数据*2

df['new_col'] = df['col'].apply(lambda x: x*2)

分组与聚合

groupby和agg按照指定列进行分组,然后进行聚合统计

# 按照'col1'列分组,统计分组后'col2'列的平均值
df.group('col1')['col2'].mean()

df.groupby('所属板块').agg({'阅读人次': 'mean', '发布时间':'min'})

合并数据

pd.concat([df1, df2]):垂直(默认,axix=0)或水平连接(axis=1)两个DataFrame

pd.merge(left, right, on='key'): 内连接或外连接两个DataFrame

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值