python dataframe index_python dataframe 多次合并后 index和row的数据对不上?

最新推荐文章于 2021-12-31 15:54:45 发布

weixin_39616961

最新推荐文章于 2021-12-31 15:54:45 发布

阅读量676

点赞数

文章标签： python dataframe index

我们讨论如何利用concat方法进行简单的数据拼接.

import pandas as pd

ser1 = pd.Series(['A','B','C'], index=[1,2,3])

ser2 = pd.Series(['D','E','F'], index=[4,5,6])

ser = pd.concat([ser1,ser2])

print(ser1)

print(ser2)

print(ser)

1 A

2 B

3 C

dtype: object

4 D

5 E

6 F

dtype: object

1 A

2 B

3 C

4 D

5 E

6 F

dtype: object

在这个例子中，我们简单的对Series进行了拼接，我们看到默认的情况是逐行进行合并操作，对DataFrame对象进行简单拼接也是一样。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'}})

df2 = pd.DataFrame({'A':{'3':'A3','4':'A4'},'B':{'3':'B3','4':'B4'}})

print(df1)

print(df2)

print(pd.concat([df1,df2]))

A B

1 A1 B1

2 A2 B2

A B

3 A3 B3

4 A4 B4

A B

1 A1 B1

2 A2 B2

3 A3 B3

4 A4 B4

通过这种方法，我们也是以逐行的方式对两个DataFrame进行了合并。

很自然的，相对于逐行进行合并，也可以按逐列的方式进行合并，类比之前讲过的，加上一个axis参数即可：

import pandas as pd

import numpy as np

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'}})

df2 = pd.DataFrame({'C':{'1':'C1','2':'C4'},'D':{'1':'D1','2':'D2'}})

print(df1)

print(df2)

print(pd.concat([df1,df2], axis=1))

A B

1 A1 B1

2 A2 B2

C D

1 C1 D1

2 C4 D2

A B C D

1 A1 B1 C1 D1

2 A2 B2 C4 D2

上面的例子举得比较特殊，刻意设置了两个DataFrame数据的索引是不同的，如果恰好他们的索引相同，会不会出问题。

这个问题提的不错，Pandas中concat方法的一个很大的特点就是保留索引，合并后的结果里各行的索引与合并前的索引保持一致。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'}})

df2 = pd.DataFrame({'A':{'1':'A3','2':'A4'},'B':{'1':'B3','2':'B4'}})

print(pd.concat([df1,df2]))

A B

1 A1 B1

2 A2 B2

1 A3 B3

2 A4 B4

可以看到，结果并没有报错，而且确实是保留了合并前的索引。但是这并不是我们想看到的，因为这样一来，A1、A3两项的索引就是完全一样了。

那就眼睁睁的看着这种情况发生吗？

当然不是，解决的方法有两种：

第一种就是忽略这种索引，如果索引是这种没有实际意义的流水ID，那么我们可以让他们顺次的往下排列，从而避免重复，设置一个ignore_index即可实现。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'}})

df2 = pd.DataFrame({'A':{'1':'A3','2':'A4'},'B':{'1':'B3','2':'B4'}})

print(df1)

print(df2)

print(pd.concat([df1,df2], ignore_index=True))

A B

1 A1 B1

2 A2 B2

A B

1 A3 B3

2 A4 B4

A B

0 A1 B1

1 A2 B2

2 A3 B3

3 A4 B4

那如果原来的索引代表了实际意义，不能忽略呢？

别急，第二种方法就是利用多级索引的方式来保留原索引。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'}})

df2 = pd.DataFrame({'A':{'1':'A3','2':'A4'},'B':{'1':'B3','2':'B4'}})

print(df1)

print(df2)

print(pd.concat([df1,df2], keys=['x','y']))

A B

1 A1 B1

2 A2 B2

A B

1 A3 B3

2 A4 B4

A B

x 1 A1 B1

2 A2 B2

y 1 A3 B3

2 A4 B4

还漏了一种情况，就是如果列名不完全一致应该如何处理？

我们继续看看在合并的过程中，列会出现什么现象。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'},'C':{'1':'C1','2':'C2'}})

df2 = pd.DataFrame({'B':{'3':'B3','4':'B4'},'C':{'3':'C3','4':'C4'},'D':{'3':'D3','4':'D4'}})

print(df1)

print(df2)

print(pd.concat([df1,df2]))

A B C

1 A1 B1 C1

2 A2 B2 C2

B C D

3 B3 C3 D3

4 B4 C4 D4

A B C D

1 A1 B1 C1 NaN

2 A2 B2 C2 NaN

3 NaN B3 C3 D3

4 NaN B4 C4 D4

从结果中我们可以看出，我们这种默认的合并方式是对所有的输入列取并集，如果在某个位置上值缺失，则用NaN值来代替。

如果我们想换一种方式，对输入列取交集，这样就不会出现NaN值了。

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'},'C':{'1':'C1','2':'C2'}})

df2 = pd.DataFrame({'B':{'3':'B3','4':'B4'},'C':{'3':'C3','4':'C4'},'D':{'3':'D3','4':'D4'}})

print(df1)

print(df2)

print(pd.concat([df1,df2], join='inner'))

A B C

1 A1 B1 C1

2 A2 B2 C2

B C D

3 B3 C3 D3

4 B4 C4 D4

B C

1 B1 C1

2 B2 C2

3 B3 C3

4 B4 C4

当然，我们还可以指定任何一个合并项的列来作为最后结果的使用列：

import pandas as pd

df1 = pd.DataFrame({'A':{'1':'A1','2':'A2'},'B':{'1':'B1','2':'B2'},'C':{'1':'C1','2':'C2'}})

df2 = pd.DataFrame({'B':{'3':'B3','4':'B4'},'C':{'3':'C3','4':'C4'},'D':{'3':'D3','4':'D4'}})

print(df1)

print(df2)

print(pd.concat([df1, df2], join_axes=[df1.columns]))

A B C

1 A1 B1 C1

2 A2 B2 C2

B C D

3 B3 C3 D3

4 B4 C4 D4

A B C

1 A1 B1 C1

2 A2 B2 C2

3 NaN B3 C3

4 NaN B4 C4

关于数据科学更系统、更深入的探讨可进入我们的专栏《Python数据科学之路》：酱油哥：来吧，一起踏上Python数据科学之路zhuanlan.zhihu.com

本专栏模仿美剧剧集编排分为五季，第一季：Python编程语言核心基础、第二季：Python数据分析基本工具、第三季：Python语言描述的数学基础、第四季：机器学习典型算法专题、第五季：实战热点深度应用。

weixin_39616961

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python dataframe index_python dataframe 多次合并后 index和row的数据对不上?

我们讨论如何利用concat方法进行简单的数据拼接.import pandas as pdser1 = pd.Series(['A','B','C'], index=[1,2,3])ser2 = pd.Series(['D','E','F'], index=[4,5,6])ser = pd.concat([ser1,ser2])print(ser1)print(ser2)print(ser)1 ...
复制链接

扫一扫