Pandas 4-数据区域读取填充内容

司南锤

于 2024-09-01 15:49:57 发布

阅读量275

点赞数 3

分类专栏： pandas python基础学习文章标签： pandas

本文链接：https://blog.csdn.net/qq_52964132/article/details/141785363

版权

python基础学习同时被 2 个专栏收录

81 篇文章 2 订阅

订阅专栏

pandas

17 篇文章 0 订阅

订阅专栏

1. 数据区域读取

1.1 读取特定行

import pandas as pd  
  
# 创建一个DataFrame  
data = {  
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],    'Age': [24, 27, 22, 32],    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}  
  
df = pd.DataFrame(data)  
print(df)  
  
# 读取特定行（通过位置）  
print(df.iloc[0])  # 读取第一行  
print(df.iloc[1:3])  # 读取第二到第三行  
  
# 读取特定行（通过标签）  
print(df.loc[0])  # 读取第一行  
print(df.loc[1:2])  # 读取第二到第三行

1.2 读取特定列

# 读取特定列  
print(df['Name'])  # 读取Name列  
print(df[['Name', 'City']])  # 读取Name和City列  
  
# 通过位置读取列  
print(df.iloc[:, 0])  # 读取第一列  
print(df.iloc[:, 1:3])  # 读取第二到第三列  
  
# 通过标签读取列  
print(df.loc[:, 'Name'])  # 读取Name列  
print(df.loc[:, ['Name', 'City']])  # 读取Name和City列

1.3 读取特定单元格

# 读取特定单元格（通过位置）  
print(df.iloc[0, 0])  # 读取第一行第一列的值  
print(df.iloc[1, 2])  # 读取第二行第三列的值  
  
# 读取特定单元格（通过标签）  
print(df.loc[0, 'Name'])  # 读取第一行Name列的值  
print(df.loc[1, 'City'])  # 读取第二行City列的值

2. 填充内容

2.1 填充缺失值

在数据处理过程中，经常会遇到缺失值。Pandas提供了多种方法来填充或处理缺失值。

import numpy as np  
  
# 创建一个包含缺失值的DataFrame  
data = {  
    'Name': ['Alice', 'Bob', np.nan, 'David'],    'Age': [24, np.nan, 22, 32],    'City': ['New York', 'Los Angeles', 'Chicago', np.nan]}  
  
df = pd.DataFrame(data)  
print(df)  
  
# 检查缺失值  
print(df.isnull())  
  
# 填充缺失值  
df_filled = df.fillna('Unknown')  
print(df_filled)  
  
# 使用前一个值填充  
df_filled_ffill = df.ffill()  
print(df_filled_ffill)  
  
# 使用后一个值填充  
df_filled_bfill = df.bfill()  
print(df_filled_bfill)

2.2 插值填充

对于数值型数据，可以使用插值方法来填充缺失值。

# 创建一个包含缺失值的DataFrame  
data = {  
    'A': [1, 2, np.nan, 4, 5],    'B': [np.nan, 2, 3, np.nan, 5]}  
  
df = pd.DataFrame(data)  
print(df)  
  
# 线性插值填充  
df_interpolated = df.interpolate()  
print(df_interpolated)  
  
# 多项式插值填充  
df_interpolated_poly = df.interpolate(method='polynomial', order=2)  
print(df_interpolated_poly)