pandas的拼接操作

pandas的拼接分为两种：

级联：pd.concat, pd.append
合并：pd.merge, pd.join

0. 回顾numpy的级联

import numpy as np

nd1 = np.array([1,2,3])

np.concatenate([nd1,nd2],axis=0)

array([ 1,  2,  3, -1, -2, -3, -4])

nd3 = np.array([[1,2,3],[4,5,6]])

array([[1, 2, 3],
       [4, 5, 6]])

np.concatenate([nd1,nd3],axis=1) # 维度不同无法级联

---------------------------------------------------------------------------
AxisError                                 Traceback (most recent call last)
<ipython-input-5-8f0014705afb> in <module>()
----> 1 np.concatenate([nd1,nd3],axis=1) # 维度不同无法级联

AxisError: axis 1 is out of bounds for array of dimension 1

nd4 = np.random.randint(0,10,size=(3,3))

array([[4, 6, 1],
       [9, 3, 7],
       [9, 6, 3]])

np.concatenate([nd3,nd4],axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [4, 6, 1],
       [9, 3, 7],
       [9, 6, 3]])

nd3 + nd4

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-8-abc835f3e1d9> in <module>()
----> 1 nd3 + nd4

ValueError: operands could not be broadcast together with shapes (2,3) (3,3)

nd1 + nd3 # 维度不一样可以广播机制

array([[2, 4, 6],
       [5, 7, 9]])

============================================

练习12：

生成2个3*3的矩阵，对其分别进行两个维度上的级联

============================================

​

为方便讲解，我们首先定义一个生成DataFrame的函数：

import pandas as pd

# 定义一个函数，根据行he列名对元素设置值

df1 = make_df(list("abc"),[1,2,4])

df2 = make_df(list("abc"),[4,5,6])

1. 使用pd.concat()级联

pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

1) 简单级联

和np.concatenate一样，优先增加行数（默认axis=0）

pd.concat([df1,df2])

pd.concat([df1,df2],axis=1)

可以通过设置axis来改变级联方向

​

注意index在级联时可以重复

也可以选择忽略ignore_index，重新索引

pd.concat([df1,df2],axis=0,ignore_index=True)

或者使用多层索引 keys

concat([x,y],keys=['x','y'])

pd.concat([df1,df2],keys=["教学","品保"])

============================================

练习13：

想一想级联的应用场景？
使用昨天的知识，建立一个期中考试张三、李四的成绩表ddd
假设新增考试学科"计算机"，如何实现？
新增王老五同学的成绩，如何实现？

============================================

​

2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

df1

df3 = make_df(list("abcd"),[1,2,3,4])

pd.concat([df1,df3],axis=0)

pd.concat([df1,df3],axis=1)

有3种连接方式：

外连接：补NaN（默认模式）

pd.concat([df1,df3],axis=0,join="outer")

内连接：只连接匹配的项

pd.concat([df1,df3],axis=0,join="inner")

df4 = make_df(list("aecd"),[1,2,3,4])

pd.concat([df3,df4],axis=0,join="inner")

	a	b	c
1	a1	b1	c1
2	a2	b2	c2
4	a4	b4	c4

	a	b	c
4	a4	b4	c4
5	a5	b5	c5
6	a6	b6	c6

	a	b	c
1	a1	b1	c1
2	a2	b2	c2
4	a4	b4	c4
4	a4	b4	c4
5	a5	b5	c5
6	a6	b6	c6

	a	b	c	a	b	c
1	a1	b1	c1	NaN	NaN	NaN
2	a2	b2	c2	NaN	NaN	NaN
4	a4	b4	c4	a4	b4	c4
5	NaN	NaN	NaN	a5	b5	c5
6	NaN	NaN	NaN	a6	b6	c6

	a	b	c
0	a1	b1	c1
1	a2	b2	c2
2	a4	b4	c4
3	a4	b4	c4
4	a5	b5	c5
5	a6	b6	c6

	a	b	c	a	b	c
1	a1	b1	c1	NaN	NaN	NaN
2	a2	b2	c2	NaN	NaN	NaN
4	a4	b4	c4	a4	b4	c4
5	NaN	NaN	NaN	a5	b5	c5
6	NaN	NaN	NaN	a6	b6	c6

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4

	a	b	c	a	b	c	d
1	a1	b1	c1	a1	b1	c1	d1
2	a2	b2	c2	a2	b2	c2	d2
3	NaN	NaN	NaN	a3	b3	c3	d3
4	a4	b4	c4	a4	b4	c4	d4

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4

		a	b	c
教学	1	a1	b1	c1
	2	a2	b2	c2
	4	a4	b4	c4
品保	4	a4	b4	c4
	5	a5	b5	c5
	6	a6	b6	c6

	a	b	c	a	b	c
1	a1	b1	c1	NaN	NaN	NaN
2	a2	b2	c2	NaN	NaN	NaN
4	a4	b4	c4	a4	b4	c4
5	NaN	NaN	NaN	a5	b5	c5
6	NaN	NaN	NaN	a6	b6	c6

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4

	a	b	c	a	b	c	d
1	a1	b1	c1	a1	b1	c1	d1
2	a2	b2	c2	a2	b2	c2	d2
3	NaN	NaN	NaN	a3	b3	c3	d3
4	a4	b4	c4	a4	b4	c4	d4

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4

pandas（四）pandas的拼接操作

pandas的拼接操作

0. 回顾numpy的级联

1. 使用pd.concat()级联

1) 简单级联

2) 不匹配级联

	a	b	c	a	b	c
1	a1	b1	c1	NaN	NaN	NaN
2	a2	b2	c2	NaN	NaN	NaN
4	a4	b4	c4	a4	b4	c4
5	NaN	NaN	NaN	a5	b5	c5
6	NaN	NaN	NaN	a6	b6	c6

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4

	a	b	c	a	b	c	d
1	a1	b1	c1	a1	b1	c1	d1
2	a2	b2	c2	a2	b2	c2	d2
3	NaN	NaN	NaN	a3	b3	c3	d3
4	a4	b4	c4	a4	b4	c4	d4

	a	b	c	d
1	a1	b1	c1	NaN
2	a2	b2	c2	NaN
4	a4	b4	c4	NaN
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
4	a4	b4	c4	d4