说明:本blog基于python3版本, pandas 1.3.5
前言
我们在日常工作中,拿到第一手的数据集通常有很多nan值;
本文介绍一种根据DataFrame2 来 逐列填补DataFrame1 中nan 值的方法,
公式: DataFrame1.combine_first(DataFrame2), 返回一个DataFrame1和DataFrame2 长度,宽度分别取DataFrame1和DataFrame2最大值的新的DataFrame
代码实例
import pandas as pd
import numpy as np
a = pd.DataFrame([[1,3,np.nan,9],
[np.nan, 89,76,26]], index = ["a","b"])
b = pd.DataFrame([[1,3,9],
[22, 8,0],
[77, np.nan,80]], index = ["a","c","f"])
print(a)
print(b)
c = a.combine_first(b)
print(c)
结果如下,
0 1 2 3
a 1.0 3 NaN 9
b NaN 89 76.0 26
0 1 2
a 1 3.0 9
c 22 8.0 0
f 77 NaN 80
0 1 2 3
a 1.0 3.0 9.0 9.0
b NaN 89.0 76.0 26.0
c 22.0 8.0 0.0 NaN
f 77.0 NaN 80.0 NaN
由此可知, a 和 b 生成的新的Dataframe 是一个长宽分别为4,4的二维数据