1. 数据区域读取
1.1 读取特定行
import pandas as pd
# 创建一个DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [24, 27, 22, 32], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
print(df)
# 读取特定行(通过位置)
print(df.iloc[0]) # 读取第一行
print(df.iloc[1:3]) # 读取第二到第三行
# 读取特定行(通过标签)
print(df.loc[0]) # 读取第一行
print(df.loc[1:2]) # 读取第二到第三行
1.2 读取特定列
# 读取特定列
print(df['Name']) # 读取Name列
print(df[['Name', 'City']]) # 读取Name和City列
# 通过位置读取列
print(df.iloc[:, 0]) # 读取第一列
print(df.iloc[:, 1:3]) # 读取第二到第三列
# 通过标签读取列
print(df.loc[:, 'Name']) # 读取Name列
print(df.loc[:, ['Name', 'City']]) # 读取Name和City列
1.3 读取特定单元格
# 读取特定单元格(通过位置)
print(df.iloc[0, 0]) # 读取第一行第一列的值
print(df.iloc[1, 2]) # 读取第二行第三列的值
# 读取特定单元格(通过标签)
print(df.loc[0, 'Name']) # 读取第一行Name列的值
print(df.loc[1, 'City']) # 读取第二行City列的值
2. 填充内容
2.1 填充缺失值
在数据处理过程中,经常会遇到缺失值。Pandas提供了多种方法来填充或处理缺失值。
import numpy as np
# 创建一个包含缺失值的DataFrame
data = {
'Name': ['Alice', 'Bob', np.nan, 'David'], 'Age': [24, np.nan, 22, 32], 'City': ['New York', 'Los Angeles', 'Chicago', np.nan]}
df = pd.DataFrame(data)
print(df)
# 检查缺失值
print(df.isnull())
# 填充缺失值
df_filled = df.fillna('Unknown')
print(df_filled)
# 使用前一个值填充
df_filled_ffill = df.ffill()
print(df_filled_ffill)
# 使用后一个值填充
df_filled_bfill = df.bfill()
print(df_filled_bfill)
2.2 插值填充
对于数值型数据,可以使用插值方法来填充缺失值。
# 创建一个包含缺失值的DataFrame
data = {
'A': [1, 2, np.nan, 4, 5], 'B': [np.nan, 2, 3, np.nan, 5]}
df = pd.DataFrame(data)
print(df)
# 线性插值填充
df_interpolated = df.interpolate()
print(df_interpolated)
# 多项式插值填充
df_interpolated_poly = df.interpolate(method='polynomial', order=2)
print(df_interpolated_poly)