感想
连接是pandas中最重要的操作,平时经常要与它打交道。因为平时遇到的数据多个数据源的,需要把涉及的数据源全部拼接一起。
按方式划分,可分成外连接、内连接、右连接、左连接。逻辑同SQl中对应连接功能。
按关联方式划分,可分为值连接、索引连接、方向连接及拼接。
1、python中连接的函数有:merge、join、concat、append 和 assign 。
2、一般两个字段及字段含义不相同表之间连接使用merge。
3、concat相当于纵向连接,会自动广播,若表之间有共同的字段,相当于在第一个表下面新增数据。若字段不同,会在第一个表新增列并用NAN填充空白处。
4、若想要把一个序列追加到表的行末或者列末,则可以分别使用 append 和 assign 方法。
5、在 append 中,如果原表是默认整数序列的索引,那么可以使用 ignore_index=True 对新序列对应索引的自动标号,否则必须对 Series 指定 name 属性。
6、对于 assign 而言,虽然可以利用其添加新的列,但一般通过 df[‘new_col’] = … 的形式就可以等价地添加新列。
参考资料:https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch6.html