Pandas库使用(三):DataFrame基础操作
文章目录
1. 创建DataFrame
DataFrame
是一种二维表格结构,类似于Excel中的表格。可以通过多种方式创建DataFrame
,常见的是通过字典或者二维数组。此外还可以通过读Excel或csv等方式获取。
import pandas as pd
# 通过字典创建DataFrame
data = {
'Name': ['Tom', 'Jerry', 'Mickey'],
'Age': [28, 22, 35],
'Gender': ['Male', 'Male', 'Male']
}
df = pd.DataFrame(data)
print(df)
2. 查看数据
head()
:查看前几行数据,默认显示前5行。tail()
:查看最后几行数据,默认显示最后5行。info()
:查看数据的简要信息,包括数据类型、非空值等。describe()
:对数值型数据进行统计描述,包括均值、标准差、最小值、四分位数等。
print(df.head()) # 查看前5行
print(df.info()) # 查看数据结构
print(df.describe()) # 查看统计信息
3. 选取和筛选数据
在DataFrame
中,常见的选取方式有以下几种:
df['列名']
:按列名选取列,返回一个Series
。df[['列名1', '列名2']]
:按列名选取多列,返回一个DataFrame
。df.loc[]
:按标签索引选取数据,支持行、列选择。df.iloc[]
:按位置索引选取数据。
# 选取单列
print(df['Name'])
# 选取多列
print(df[['Name', 'Age']])
# 选取多行
print(df.loc[0:1]) # 按行号选择
print(df.iloc[0:1]) # 按位置索引选择
4. 条件筛选
可以使用条件表达式进行数据筛选,类似于SQL的WHERE
子句。
# 筛选年龄大于25的人
print(df[df['Age'] > 25])
# 筛选Name为Tom的数据
print(df[df['Name'] == 'Tom'])
5. 修改数据
可以通过索引、条件筛选等方式修改DataFrame
中的数据。
# 修改单个值
df.at[0, 'Age'] = 30
# 修改多行多列数据
df.loc[df['Name'] == 'Tom', 'Age'] = 32
print(df)
6. 增加/删除列
- 增加列:通过赋值的方式新增列。
- 删除列:使用
drop()
函数,设置axis=1
表示删除列。
# 新增列
df['Salary'] = [3000, 4000, 5000]
# 删除列
df = df.drop('Salary', axis=1)
print(df)
7. 数据排序
DataFrame
可以根据某一列或多列进行排序,使用sort_values()
函数。
# 按Age列进行升序排序
df_sorted = df.sort_values(by='Age')
# 按Age列进行降序排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)
8. 缺失值处理
DataFrame
中经常会出现缺失数据,常见的操作有:
isnull()
:检查缺失值。dropna()
:删除缺失值。fillna()
:填充缺失值。
# 检查缺失值
print(df.isnull())
# 删除含有缺失值的行
df_cleaned = df.dropna()
# 填充缺失值
df_filled = df.fillna(0)
print(df_filled)