从多个数据源中提取数据进行ETL处理并导入数据仓库

海拥✘

于 2023-04-19 16:11:22 发布

阅读量1w

点赞数 37

文章标签：数据仓库 etl 数据库

本文链接：https://blog.csdn.net/qq_44273429/article/details/130246081

版权

💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】
🤟 前端学习课程：👉【28个案例趣学前端】【400个JS面试题】
💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼学习交流群】

ETL（Extract, Transform, Load）是一种广泛应用于数据处理和数据仓库建设的方法论，它主要用于从各种不同的数据源中提取数据，经过一系列的处理和转换，最终将数据导入到目标系统中。本文将介绍如何使用Python进行ETL数据处理的实战案例，包括从多个数据源中提取数据、进行数据转换和数据加载的完整流程。

一、数据来源

在本次实战案例中，我们将从三个不同的数据源中提取数据进行处理，包括：

MySQL数据库中的销售数据表，其中包括订单ID、产品名称、销售额、销售日期等信息。
MongoDB数据库中的用户行为数据集合，其中包括用户ID、行为类型、行为时间等信息。
Excel文件中的客户数据，其中包括客户ID、客户名称、联系方式等信息。

我们需要从这三个数据源中提取数据，并将其导入到数据仓库中进行进一步的分析和处理。

二、数据提取

数据提取是ETL过程的第一步，我们需要从源数据中获取需要的数据。在本次实战案例中，我们使用Python的pandas库和pymongo库来读取MySQL数据库、MongoDB数据库和Excel文件中的数据，并将其转换为DataFrame对象，如下所示：

import pandas as pd
import pymongo
import pymysql
import xlrd

# 连接MySQL数据库
conn_mysql = pymysql.connect(host='localhost', port=3306, user='root', password='123456', db='sales')
sql = 'SELECT * FROM sales_data'
df_mysql = pd.read_sql(sql, con=conn_mysql)

# 连接MongoDB数据库
conn_mongo = pymongo.MongoClient('mongodb://localhost:27017/')
db_mongo = conn_mongo['user_behavior']
col_mongo = db_mongo['user_actions']
df_mongo = pd.DataFrame(list(col_mongo.find()))

# 读取Excel文件中的数据
df_excel = pd.read_excel('customer_data.xlsx')

通过上述代码，我们成功将MySQL数据库中的销售数据表、MongoDB数据库中的用户行为数据集合和Excel文件中的客户数据读取为DataFrame对象，并可以使用pandas提供的各种方法进行数据处理和转换。

三、数据转换

数据转换是ETL过程的核心步骤，它将原始数据转换为目标格式，以便于后续的处理和分析。在本次实战案例中，我们需要对从三个数据源中提取的数据进行一些处理和转换，包括：

将MySQL数据库中的销售日期转换为日期类型，并提取出销售额的前两位作为销售分类。
将MongoDB数据库中的行为时间转换为日期类型，并提取出日期、小时、分钟等信息作为新的列。
对Excel文件中的客户数据进行清洗和整理，去除重复项，并将客户名称转换为大写字母格式。

下面是针对这些数据转换需求的代码实现：

# 将MySQL中的销售日期转换为日期类型，并提取销售额的前两位作为销售分类
df_mysql['sales_date'] = pd.to_datetime(df_mysql['sales_date'], format='%Y-%m-%d')
df_mysql['sales_category'] = df_mysql['sales_amount'].apply(lambda x: str(x)[:2])

# 将MongoDB中的行为时间转换为日期类型，并提取日期、小时、分钟等信息作为新的列
df_mongo['action_time'] = pd.to_datetime(df_mongo['action_time'], unit='ms')
df_mongo['action_date'] = df_mongo['action_time'].dt.date
df_mongo['action_hour'] = df_mongo['action_time'].dt.hour
df_mongo['action_minute'] = df_mongo['action_time'].dt.minute

# 对Excel中的客户数据进行清洗和整理，去除重复项，并将客户名称转换为大写字母格式
df_excel.drop_duplicates(subset=['customer_id'], inplace=True)
df_excel['customer_name'] = df_excel['customer_name'].str.upper()

通过上述代码，我们成功将MySQL数据库中的销售数据、MongoDB数据库中的用户行为数据和Excel文件中的客户数据转换为了目标格式，并且可以继续使用pandas提供的各种方法进行数据处理和分析。

四、数据加载

数据加载是ETL过程的最后一步，它将转换后的数据导入到目标系统中进行存储和分析。在本次实战案例中，我们将转换后的数据导入到MySQL数据库中的数据仓库中进行存储和分析。下面是将转换后的数据导入到MySQL数据库中的代码实现：

import pymysql

# 连接MySQL数据库
conn_mysql = pymysql.connect(host='localhost', port=3306, user='root', password='123456', db='data_warehouse')

# 将MySQL中的销售数据插入到数据仓库中的sales表中
df_mysql.to_sql(name='sales', con=conn_mysql, if_exists='append', index=False)

# 将MongoDB中的用户行为数据插入到数据仓库中的user_actions表中
df_mongo.to_sql(name='user_actions', con=conn_mysql, if_exists='append', index=False)

# 将Excel中的客户数据插入到数据仓库中的customers表中
df_excel.to_sql(name='customers', con=conn_mysql, if_exists='append', index=False)

通过上述代码，我们使用pandas提供的to_sql()方法将转换后的数据插入到MySQL数据库的数据仓库中。其中，参数if_exists='append’表示如果表已经存在，则将新数据追加到已有数据的末尾，而不是覆盖原有数据。

五、总结

本文介绍了如何使用Python进行ETL数据处理的实战案例，包括从多个数据源中提取数据、对数据进行清洗和转换，以及将转换后的数据加载到目标系统中进行存储和分析。在实际工作中，ETL是数据处理的重要环节，它可以帮助我们从多个数据源中提取、清洗和整理数据，以便进行更好的数据分析和业务决策。

在本次实战案例中，我们使用了pandas、pymongo和pymysql等Python库，它们提供了丰富的数据处理和数据库操作方法，帮助我们完成了数据ETL的整个过程。同时，我们还介绍了ETL的三个关键步骤：数据提取、数据转换和数据加载，这些步骤对于实际的数据处理非常重要。

总之，ETL是数据处理过程中不可或缺的一环，它能够帮助我们从多个数据源中提取、清洗和整理数据，使得数据分析和业务决策变得更加高效和准确。在实际工作中，我们可以结合具体业务需求和数据处理工具，使用Python等编程语言进行数据ETL处理，以满足业务上的需求。

海拥✘

关注

37
点赞
踩
50

收藏

觉得还不错? 一键收藏
打赏
33
评论
从多个数据源中提取数据进行ETL处理并导入数据仓库

本文介绍了如何使用Python进行ETL数据处理的实战案例，包括从多个数据源中提取数据、对数据进行清洗和转换，以及将转换后的数据加载到目标系统中进行存储和分析。在实际工作中，ETL是数据处理的重要环节，它可以帮助我们从多个数据源中提取、清洗和整理数据，以便进行更好的数据分析和业务决策。在本次实战案例中，我们使用了pandaspymongo和pymysql等Python库，它们提供了丰富的数据处理和数据库操作方法，帮助我们完成了数据ETL的整个过程。
复制链接

扫一扫