(3-2-03)数据转换与整合

本文详细讲解了如何使用Pandas在Python中通过`pd.merge`函数实现数据集的整合与关联,以顾客信息和订单信息为例。
摘要由CSDN通过智能技术生成

3.2.3  数据集成与关联

数据集成与关联是将不同来源或格式的数据集合并在一起,以便进行更全面的分析和挖掘。这种集成可以帮助我们从不同角度来理解数据,发现隐藏的模式和关联。在数据集成过程中,我们需要解决数据源不一致、重复数据、缺失数据等问题。

当涉及到数据集成与关联时,Pandas是一个非常强大的工具,可以轻松地对数据进行整合和关联。例如下面是一个完整的Pandas实现数据集成与关联的例子。

实例3-1:使用Pandas实现数据集成与关联(源码路径:daima/3/guan.py)

1假设有两个CSV文件,一个是存储顾客信息的customers.csv,另一个是存储订单信息的orders.csv。我们希望通过关联这两个数据集,得到一个包含顾客和订单信息的整合数据集。其中文件customers.csv的内容如下:

customer_id,name,age
1,Alice,28
2,Bob,35
3,Charlie,22

文件orders.csv的内容如下:

order_id,customer_id,product,amount
101,1,Apple,3
102,2,Banana,2
103,1,Orange,5

2)实例文件guan.py使用Pandas进行数据集成与关联,具体实现代码如下所示

import pandas as pd

# 读取顾客信息和订单信息数据集
customers_df = pd.read_csv('customers.csv')
orders_df = pd.read_csv('orders.csv')

# 使用关联键 customer_id 进行数据集关联
merged_df = pd.merge(customers_df, orders_df, on='customer_id')

print("整合后的数据集大小:", merged_df.shape)
print(merged_df)

在上述代码中,使用了pd.merge函数来根据customer_id这个关联键将两个数据集关联起来,得到一个包含顾客和订单信息的整合数据集。最后,输出整合后的数据集大小和内容。执行后会输出:

整合后的数据集大小: (3, 6)
   customer_id    name  age  order_id product  amount
0            1   Alice   28       101   Apple       3
1            1   Alice   28       103  Orange       5
2            2     Bob   35       102  Banana       2

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值