十分钟教会你Pandas多个数据表合并(merge)
当处理多个数据表时,合并(merge)是一个重要的操作,它可以将具有相同或相关数据的表连接在一起。Pandas 提供了 merge()
函数,可以根据指定的列或索引将两个或多个数据表合并在一起。下面我将向你介绍如何使用 Pandas 的 merge()
函数进行合并操作。
假设你有两个数据表 df1
和 df2
,你想根据某个共同的列(或索引)将它们合并在一起,可以按照以下步骤操作:
-
导入 Pandas:
首先,确保导入了 Pandas 库:import pandas as pd
-
读取数据表:
如果你还没有读取数据表,使用 Pandas 的read_csv()
函数(或其他适合的函数)读取数据表。假设你已经读取了两个数据表df1
和df2
。 -
合并数据表:
使用merge()
函数来合并数据表。以下是一个示例:merged_df = pd.merge(df1, df2, on='common_column')
其中,
common_column
是两个数据表共有的列名,根据这个列进行合并。你还可以使用其他参数来指定合并方式、连接键、是否保留所有行等。 -
合并方式(how 参数):
merge()
函数的how
参数指定了合并的方式。常见的方式包括:'inner'
:默认方式,取两个表的交集。'outer'
:取两个表的并集,缺失值用 NaN 填充。'left'
:取左表的全部行,右表中没有对应行的用 NaN 填充。'right'
:取右表的全部行,左表中没有对应行的用 NaN 填充。
以下是一个完整的示例:
import pandas as pd
# 读取两个数据表
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
# 根据共同列 'key' 合并数据表
merged_df = pd.merge(df1, df2, on='key')
# 打印合并后的数据表
print(merged_df)
请根据你的数据表和需求,自行调整上述代码。