Pandas库使用（三）：DataFrame基础操作

最新推荐文章于 2025-03-26 21:12:00 发布

爬虫俗手小马达

最新推荐文章于 2025-03-26 21:12:00 发布

阅读量516

点赞数 12

文章标签： pandas python 数据结构

本文链接：https://blog.csdn.net/m0_55893050/article/details/142651570

版权

Pandas库使用（三）：DataFrame基础操作

文章目录

- - Pandas库使用（三）：DataFrame基础操作

1. 创建DataFrame

DataFrame是一种二维表格结构，类似于Excel中的表格。可以通过多种方式创建DataFrame，常见的是通过字典或者二维数组。此外还可以通过读Excel或csv等方式获取。

import pandas as pd

# 通过字典创建DataFrame
data = {
    'Name': ['Tom', 'Jerry', 'Mickey'],
    'Age': [28, 22, 35],
    'Gender': ['Male', 'Male', 'Male']
}
df = pd.DataFrame(data)
print(df)

2. 查看数据

head()：查看前几行数据，默认显示前5行。
tail()：查看最后几行数据，默认显示最后5行。
info()：查看数据的简要信息，包括数据类型、非空值等。
describe()：对数值型数据进行统计描述，包括均值、标准差、最小值、四分位数等。

print(df.head())  # 查看前5行
print(df.info())  # 查看数据结构
print(df.describe())  # 查看统计信息

3. 选取和筛选数据

在DataFrame中，常见的选取方式有以下几种：

df['列名']：按列名选取列，返回一个Series。
df[['列名1', '列名2']]：按列名选取多列，返回一个DataFrame。
df.loc[]：按标签索引选取数据，支持行、列选择。
df.iloc[]：按位置索引选取数据。

# 选取单列
print(df['Name'])

# 选取多列
print(df[['Name', 'Age']])

# 选取多行
print(df.loc[0:1])  # 按行号选择
print(df.iloc[0:1])  # 按位置索引选择

4. 条件筛选

可以使用条件表达式进行数据筛选，类似于SQL的WHERE子句。

# 筛选年龄大于25的人
print(df[df['Age'] > 25])

# 筛选Name为Tom的数据
print(df[df['Name'] == 'Tom'])

5. 修改数据

可以通过索引、条件筛选等方式修改DataFrame中的数据。

# 修改单个值
df.at[0, 'Age'] = 30

# 修改多行多列数据
df.loc[df['Name'] == 'Tom', 'Age'] = 32

print(df)

6. 增加/删除列

增加列：通过赋值的方式新增列。
删除列：使用drop()函数，设置axis=1表示删除列。

# 新增列
df['Salary'] = [3000, 4000, 5000]

# 删除列
df = df.drop('Salary', axis=1)

print(df)

7. 数据排序

DataFrame可以根据某一列或多列进行排序，使用sort_values()函数。

# 按Age列进行升序排序
df_sorted = df.sort_values(by='Age')

# 按Age列进行降序排序
df_sorted = df.sort_values(by='Age', ascending=False)

print(df_sorted)

8. 缺失值处理

DataFrame中经常会出现缺失数据，常见的操作有：

isnull()：检查缺失值。
dropna()：删除缺失值。
fillna()：填充缺失值。

# 检查缺失值
print(df.isnull())

# 删除含有缺失值的行
df_cleaned = df.dropna()

# 填充缺失值
df_filled = df.fillna(0)
print(df_filled)