3.2.3 数据集成与关联
数据集成与关联是将不同来源或格式的数据集合并在一起,以便进行更全面的分析和挖掘。这种集成可以帮助我们从不同角度来理解数据,发现隐藏的模式和关联。在数据集成过程中,我们需要解决数据源不一致、重复数据、缺失数据等问题。
当涉及到数据集成与关联时,Pandas是一个非常强大的工具,可以轻松地对数据进行整合和关联。例如下面是一个完整的Pandas实现数据集成与关联的例子。
实例3-1:使用Pandas实现数据集成与关联(源码路径:daima/3/guan.py)
(1)假设有两个CSV文件,一个是存储顾客信息的customers.csv,另一个是存储订单信息的orders.csv。我们希望通过关联这两个数据集,得到一个包含顾客和订单信息的整合数据集。其中文件customers.csv的内容如下:
customer_id,name,age
1,Alice,28
2,Bob,35
3,Charlie,22
文件orders.csv的内容如下:
order_id,customer_id,product,amount
101,1,Apple,3
102,2,Banana,2
103,1,Orange,5
(2)实例文件guan.py使用Pandas进行数据集成与关联,具体实现代码如下所示。
import pandas as pd
# 读取顾客信息和订单信息数据集
customers_df = pd.read_csv('customers.csv')
orders_df = pd.read_csv('orders.csv')
# 使用关联键 customer_id 进行数据集关联
merged_df = pd.merge(customers_df, orders_df, on='customer_id')
print("整合后的数据集大小:", merged_df.shape)
print(merged_df)
在上述代码中,使用了pd.merge函数来根据customer_id这个关联键将两个数据集关联起来,得到一个包含顾客和订单信息的整合数据集。最后,输出整合后的数据集大小和内容。执行后会输出:
整合后的数据集大小: (3, 6)
customer_id name age order_id product amount
0 1 Alice 28 101 Apple 3
1 1 Alice 28 103 Orange 5
2 2 Bob 35 102 Banana 2