Pandas2.2 DataFrame
Missing data handling
方法 | 描述 |
---|---|
DataFrame.fillna([value, method, axis, …]) | 用于填充 DataFrame 中的缺失值(NaN) |
DataFrame.backfill(*[, axis, inplace, …]) | 用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法 |
DataFrame.bfill(*[, axis, inplace, limit, …]) | 用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法 |
pandas.DataFrame.bfill()
pandas.DataFrame.bfill()
是一个用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法。它与 backfill()
完全相同,也等价于 fillna(method='bfill')
,但支持额外的参数如 limit_area
。
📌 方法签名
DataFrame.bfill(*, axis=None, inplace=False, limit=None, limit_area=None, downcast=<no_default>)
🔧 参数说明
参数 | 类型 | 说明 |
---|---|---|
axis | {0/'index', 1/'columns'} ,默认为 None | 指定填充方向: - 0 或 'index' :按行方向(向下)填充- 1 或 'columns' :按列方向(向右)填充 |
inplace | bool ,默认 False | 是否在原对象上修改 |
limit | int ,可选 | 最多连续填充的 NaN 数量;若未指定,则全部填充 |
limit_area | 'inside' 或 'outside' ,可选 | 控制填充区域: - 'inside' :仅填充被非空包围的 NaN 区域- 'outside' :填充边缘的 NaN |
downcast | dict 或 'infer' ,可选 | 控制是否尝试将结果转换为更小的数据类型(如 float64 → float32) |
✅ 返回值
- 返回一个新的
DataFrame
,其中的NaN
值被后向填充; - 如果
inplace=True
,则返回None
,原始数据被修改。
🧪 示例代码及结果
示例 1:基本用法 - 行方向后向填充(axis=0)
import pandas as pd
import numpy as np
df = pd.DataFrame({
'A': [1, np.nan, 3, np.nan, 5],
'B': [np.nan, 2, np.nan, 4, np.nan]
})
print("Original DataFrame:")
print(df)
# 使用 bfill 按行方向填充
df_bfilled = df.bfill()
print("\nAfter bfill():")
print(df_bfilled)
输出结果:
Original DataFrame:
A B
0 1.0 NaN
1 NaN 2.0
2 3.0 NaN
3 NaN 4.0
4 5.0 NaN
After bfill():
A B
0 1.0 2.0
1 3.0 2.0
2 3.0 4.0
3 5.0 4.0
4 5.0 NaN
注意最后一行
B
列仍为NaN
,因为没有后续值可用。
示例 2:限制最大填充数量(limit=1)
# 设置最多填充 1 个连续 NaN
df_limited = df.bfill(limit=1)
print("\nAfter bfill(limit=1):")
print(df_limited)
输出结果:
After bfill(limit=1):
A B
0 1.0 2.0
1 3.0 2.0
2 3.0 4.0
3 5.0 4.0
4 5.0 NaN
在这个例子中,每列最多只填充一个 NaN。
示例 3:按列方向填充(axis=1)
# 创建按列方向有 NaN 的 DataFrame
df_col = pd.DataFrame({
'X': [1, 2, 3],
'Y': [np.nan, 5, 6],
'Z': [7, np.nan, 9]
})
print("Original Column-wise DataFrame:")
print(df_col)
# 按列方向填充
df_col_bfilled = df_col.bfill(axis=1)
print("\nAfter bfill(axis=1):")
print(df_col_bfilled)
输出结果:
Original Column-wise DataFrame:
X Y Z
0 1 NaN 7.0
1 2 5.0 NaN
2 3 6.0 9.0
After bfill(axis=1):
X Y Z
0 1 7.0 7.0
1 2 5.0 NaN
2 3 6.0 9.0
第一行
Y
列被Z
列的值7
填充。
示例 4:使用 limit_area='inside'
仅填充内部 NaN
# 构造包含边界和内部 NaN 的 DataFrame
df_limit_area = pd.DataFrame({
'A': [np.nan, 2, np.nan, 4, np.nan], # 边缘 NaN
'B': [1, np.nan, 3, np.nan, 5] # 内部 NaN
})
print("Original DataFrame with edge and internal NaNs:")
print(df_limit_area)
# 只填充被非空包围的 NaN(不填充边缘)
df_inside = df_limit_area.bfill(limit_area='inside')
print("\nAfter bfill(limit_area='inside'):")
print(df_inside)
输出结果:
Original DataFrame with edge and internal NaNs:
A B
0 NaN 1.0
1 2.0 NaN
2 NaN 3.0
3 4.0 NaN
4 NaN 5.0
After bfill(limit_area='inside'):
A B
0 NaN 1.0
1 2.0 3.0
2 4.0 3.0
3 4.0 5.0
4 NaN 5.0
可见只有中间的
NaN
被填充,而首尾的NaN
没有被填充。
示例 5:使用 limit_area='outside'
仅填充边缘 NaN
# 仅填充边缘 NaN
df_outside = df_limit_area.bfill(limit_area='outside')
print("\nAfter bfill(limit_area='outside'):")
print(df_outside)
输出结果:
After bfill(limit_area='outside'):
A B
0 2.0 1.0
1 2.0 NaN
2 NaN 3.0
3 4.0 NaN
4 4.0 5.0
此时只填充了最前或最后的
NaN
,中间的未填充。
示例 6:原地修改(inplace=True)
# 原地修改
df.bfill(inplace=True)
print("\nIn-place bfill (modified original):")
print(df)
输出结果(基于示例 1 的数据):
In-place bfill (modified original):
A B
0 1.0 2.0
1 3.0 2.0
2 3.0 4.0
3 5.0 4.0
4 5.0 NaN
🧠 应用场景
- 时间序列数据处理:填补缺失的时间点数据;
- 传感器或日志数据清洗:使用下一时刻的值进行插值;
- 数据预处理:准备模型输入前去除 NaN;
- 控制填充范围:通过
limit_area
精确控制填充哪些位置; - 链式调用中清理数据:如
df.dropna().bfill()
。
⚠️ 注意事项
bfill()
和backfill()
完全等价;- 默认按行方向(
axis=0
)填充; - 支持
limit_area
,这是backfill()
所没有的功能; - 若无后续有效值,则无法填充;
limit
控制连续填充的最大数量;- 不会自动排序索引,建议先排序以获得预期效果;
- 推荐结合
fillna()
、ffill()
等方法一起使用以满足不同需求; - 仅对
NaN
生效,不会处理None
或其他空值。
✅ 总结对比
方法 | 是否支持 limit_area | 是否推荐使用 |
---|---|---|
bfill() | ✅ 是 | ✅ 推荐 |
backfill() | ❌ 否 | ✅ 推荐(功能相同) |
fillna(method='bfill') | ✅ 是(通过 method ) | ✅ 推荐(更通用) |