Pandas库使用(三):DataFrame基础操作

Pandas库使用(三):DataFrame基础操作

1. 创建DataFrame

DataFrame是一种二维表格结构,类似于Excel中的表格。可以通过多种方式创建DataFrame,常见的是通过字典或者二维数组。此外还可以通过读Excel或csv等方式获取。

import pandas as pd

# 通过字典创建DataFrame
data = {
    'Name': ['Tom', 'Jerry', 'Mickey'],
    'Age': [28, 22, 35],
    'Gender': ['Male', 'Male', 'Male']
}
df = pd.DataFrame(data)
print(df)
2. 查看数据
  • head():查看前几行数据,默认显示前5行。
  • tail():查看最后几行数据,默认显示最后5行。
  • info():查看数据的简要信息,包括数据类型、非空值等。
  • describe():对数值型数据进行统计描述,包括均值、标准差、最小值、四分位数等。
print(df.head())  # 查看前5行
print(df.info())  # 查看数据结构
print(df.describe())  # 查看统计信息
3. 选取和筛选数据

DataFrame中,常见的选取方式有以下几种:

  • df['列名']:按列名选取列,返回一个Series
  • df[['列名1', '列名2']]:按列名选取多列,返回一个DataFrame
  • df.loc[]:按标签索引选取数据,支持行、列选择。
  • df.iloc[]:按位置索引选取数据。
# 选取单列
print(df['Name'])

# 选取多列
print(df[['Name', 'Age']])

# 选取多行
print(df.loc[0:1])  # 按行号选择
print(df.iloc[0:1])  # 按位置索引选择
4. 条件筛选

可以使用条件表达式进行数据筛选,类似于SQL的WHERE子句。

# 筛选年龄大于25的人
print(df[df['Age'] > 25])

# 筛选Name为Tom的数据
print(df[df['Name'] == 'Tom'])
5. 修改数据

可以通过索引、条件筛选等方式修改DataFrame中的数据。

# 修改单个值
df.at[0, 'Age'] = 30

# 修改多行多列数据
df.loc[df['Name'] == 'Tom', 'Age'] = 32

print(df)
6. 增加/删除列
  • 增加列:通过赋值的方式新增列。
  • 删除列:使用drop()函数,设置axis=1表示删除列。
# 新增列
df['Salary'] = [3000, 4000, 5000]

# 删除列
df = df.drop('Salary', axis=1)

print(df)
7. 数据排序

DataFrame可以根据某一列或多列进行排序,使用sort_values()函数。

# 按Age列进行升序排序
df_sorted = df.sort_values(by='Age')

# 按Age列进行降序排序
df_sorted = df.sort_values(by='Age', ascending=False)

print(df_sorted)
8. 缺失值处理

DataFrame中经常会出现缺失数据,常见的操作有:

  • isnull():检查缺失值。
  • dropna():删除缺失值。
  • fillna():填充缺失值。
# 检查缺失值
print(df.isnull())

# 删除含有缺失值的行
df_cleaned = df.dropna()

# 填充缺失值
df_filled = df.fillna(0)
print(df_filled)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值