在使用Excel时,我用的最多函数就是vlookup;在使用SQL查询的时候,我用的最多应该是join;这两个都有相同的功能,将多表匹配、合并,然后达到对比、查漏等等效果。在pandas里面也有类似的功能函数就是pd.merge()(pd是指 导入的pandas库)。merge的用法跟SQL中join很像。
df1
df2
使用merge进行合并:
使用merge进行合并
基本的结构为:pd.merge(df1,df2,合并方式,df1合并用的键,df2合并用的键)。
后面两个参数在合并的时候两个表格使用的键的列名是一样的时候可以改成on='title':
on='title'
结果和第一种方式是一样的。
使用合并的时候pandas会默认只选取一个相同的键列名,然后其它的数据进行合并。
注意到两张表格中有一个location_road是共同具有的一个列,因此合并之后两个表格的location_road列分别加上了_x和_y的后缀以便区分,这两个后缀也可以修改的(使用suffixes函数进行修改):
使用suffixes函数修改后缀
merge函数还可以只