（3-2-03）数据转换与整合

码农三叔

已于 2024-01-03 19:41:59 修改

阅读量353

点赞数 10

分类专栏：大模型从入门到实战文章标签： python 开发语言信息可视化算法大数据

于 2024-01-03 13:05:33 首次发布

本文链接：https://blog.csdn.net/asd343442/article/details/135361016

版权

大模型从入门到实战专栏收录该内容

169 篇文章 50 订阅

订阅专栏

本文详细讲解了如何使用Pandas在Python中通过`pd.merge`函数实现数据集的整合与关联，以顾客信息和订单信息为例。

摘要由CSDN通过智能技术生成

3.2.3 数据集成与关联

数据集成与关联是将不同来源或格式的数据集合并在一起，以便进行更全面的分析和挖掘。这种集成可以帮助我们从不同角度来理解数据，发现隐藏的模式和关联。在数据集成过程中，我们需要解决数据源不一致、重复数据、缺失数据等问题。

当涉及到数据集成与关联时，Pandas是一个非常强大的工具，可以轻松地对数据进行整合和关联。例如下面是一个完整的Pandas实现数据集成与关联的例子。

实例3-1：使用Pandas实现数据集成与关联（源码路径：daima/3/guan.py）

（1）假设有两个CSV文件，一个是存储顾客信息的customers.csv，另一个是存储订单信息的orders.csv。我们希望通过关联这两个数据集，得到一个包含顾客和订单信息的整合数据集。其中文件customers.csv的内容如下：

customer_id,name,age
1,Alice,28
2,Bob,35
3,Charlie,22

文件orders.csv的内容如下：

order_id,customer_id,product,amount
101,1,Apple,3
102,2,Banana,2
103,1,Orange,5

（2）实例文件guan.py使用Pandas进行数据集成与关联，具体实现代码如下所示。

import pandas as pd

# 读取顾客信息和订单信息数据集
customers_df = pd.read_csv('customers.csv')
orders_df = pd.read_csv('orders.csv')

# 使用关联键 customer_id 进行数据集关联
merged_df = pd.merge(customers_df, orders_df, on='customer_id')

print("整合后的数据集大小:", merged_df.shape)
print(merged_df)

在上述代码中，使用了pd.merge函数来根据customer_id这个关联键将两个数据集关联起来，得到一个包含顾客和订单信息的整合数据集。最后，输出整合后的数据集大小和内容。执行后会输出：

整合后的数据集大小: (3, 6)
   customer_id    name  age  order_id product  amount
0            1   Alice   28       101   Apple       3
1            1   Alice   28       103  Orange       5
2            2     Bob   35       102  Banana       2

码农三叔

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
（3-2-03）数据转换与整合

数据集成与关联是将不同来源或格式的数据集合并在一起，以便进行更全面的分析和挖掘。在上述代码中，使用了pd.merge函数来根据customer_id这个关联键将两个数据集关联起来，得到一个包含顾客和订单信息的整合数据集。假设有两个CSV文件，一个是存储顾客信息的customers.csv，另一个是存储订单信息的orders.csv。当涉及到数据集成与关联时，Pandas是一个非常强大的工具，可以轻松地对数据进行整合和关联。例如下面是一个完整的Pandas实现数据集成与关联的例子。）实例文件guan.py。
复制链接

扫一扫