场景:做数据分析的时候,我们经常需要对数据预处理后的训练集和测试集两个表格进行对齐。这时候我们可以用上pandas DataFram.align这个函数 。函数作用是返回列/行对齐后的两个表。但其文档https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.align.html 没有对参数"join"作进一步说明。以下用例子来说明该参数的作用:
先建两个表:
(1) 设置join = "inner",axis = "1"(列对齐):
可以看到,“inner”的对齐方式使将两个表格按列对齐后,列名只剩下两表列的交集(列B)并保持各自原先的数值
(2)设置 join = "outer",axis = "0"(行对齐)试试:
可以看到,“outer”的对齐方式让两个表格按行对齐后, 两个表格的行名为两个表行的并集(1,2,3,4),并且在原来表没有的数值位置上填上了NaN
(3) 设置oin = "left",axis = "None"(行/列都对齐)试试:
可以看到, “left”的对齐方式是让左边的表格(df1)的行和列名都保存下来,右边的表格(df2)行列对齐后也有这些列和行,并在原来没有数值的地方补上NaN