pyspark案例系列6-将Hive表数据写入MySQL

最新推荐文章于 2024-07-29 17:54:27 发布

只是甲

最新推荐文章于 2024-07-29 17:54:27 发布

阅读量675

点赞数

分类专栏：大数据和数据仓库 # Spark 文章标签： hive mysql spark

本文链接：https://blog.csdn.net/u010520724/article/details/125255540

版权

Hive MySQL PySpark 数据迁移 ETL

关键词由CSDN通过智能技术生成

大数据和数据仓库同时被 2 个专栏收录

290 篇文章 111 订阅

订阅专栏

Spark

33 篇文章 26 订阅

订阅专栏

一. 需求

我们做数据仓库的时候，一般是将源系统的数据(如MySQL)抽取到Hive中，然后在Hive中做ETL后，最后将处理完的数据从Hive再抽回到MySQL。

二. 解决方案

数据准备:
Hive端emp表

MySQL端提前创建好表

代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext


# 创建一个连接
spark = SparkSession. \
        Builder(). \
        appName('local'). \
        master('local'). \
        getOrCreate()

spark.sql("use test")
df1 = spark.sql("select * from emp")



df1.write.format("jdbc").options(url="jdbc:mysql://10.31.1.123:3306/test", 
                                 driver="com.mysql.jdbc.Driver", 
                                 dbtable="emp_from_hive", 
                                 user="root", 
                                 password="abc123").mode('append').save()


# 关闭spark会话
spark.stop()