pandas.align DataFrame.align

不会合并,只会补全

首先我们假设几个简单的dataframe用于演示这个函数

df1 = pd.DataFrame([[1,2,3,4], [6,7,8,9]], columns=['D', 'B', 'E', 'A'], index=[1,2])
df2 = pd.DataFrame([[10,20,30,40], [60,70,80,90], [600,700,800,900]], columns=['A', 'B', 'C', 'D'], index=[2,3,4])

我们先将df1和df2 打印出来

print(df1)
   D  B  E  A
1  1  2  3  4
2  6  7  8  9
print(df2)
     A    B    C    D
2   10   20   30   40
3   60   70   80   90
4  600  700  800  900

让我们对齐这两个数据帧,按列 () 对齐,并对列标签执行外部联接 ():axis=1 join=‘outer’

a1, a2 = df1.align(df2, join='outer', axis=1)
print(a1)
print(a2)
   A  B   C  D  E
1  4  2 NaN  1  3
2  9  7 NaN  6  8
     A    B    C    D   E
2   10   20   30   40 NaN
3   60   70   80   90 NaN
4  600  700  800  900 NaN
				outer相当于并集
              	inner相当于交集
				right是以右边为主
				left以左边为主
				我说的
				axis=0是行补
				axis=1是列补
				不规定axis是行和列
				慢慢领悟吧,我是会了

使用领域:
比如你独热编码后发现测试集里可能没有训练集的某种特征的类型,例如特征地点 可能训练集里有淅川,但是测试集没有,这样你测试集最后的列数一定比训练集少一行,这就不能训练了(独热编码的属性),此时我们就可以用align

展开:
不用align可以干嘛?
假如有df1和df2,可以通过下面的方法得出df2没有的列

a=list(set(list(df1.columns))-set(list(df2.columns)))
df2[a]=0

就搞定了
学习链接在这里:stackoverflow

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值