pyspark读取mysql数据并计算

首先导包

from pyspark.sql import SparkSession


spark = SparkSession.builder.master("local[*]").appName("sparkSql").getOrCreate()
sc = spark.sparkContext

# 声明数据库连接的相关属性
hostname = "192.168.x.x"
jdbcPort = '3306'
dbname = 'xxxx'
username = 'xxxx'
password = 'xxxx'

** 方式一** 直接读取table_name表数据,并生成dataframe类型的数据 
df = spark.read.format("jdbc") \
    .option("url", "jdbc:mysql://hostname:jdbcPort/dbname") \
    .option("driver", "com.mysql.jdbc.Driver") \
    .option("user", username) \
    .option("password", password) \
    .option("dbtable", table_name) \
    .load()

**方式二** 通过查询读取数据table_name表数据,并生成dataframe类型的数据 
query_sql = 'select * from table_name where xx = xx ......'
df = spark.read.format("jdbc") \
    .option("url", "jdbc:mysql://hostname:jdbcPort/dbname") \
    .option("driver", "com.mysql.jdbc.Driver") \
    .option("user", username) \
    .option("password", password) \
    .option("query", query_sql ) \
    .load()

# 如果想对表进行关联计算将df转换(像mysql表关联那样)

> 官方文档https://spark.apache.org/docs/latest/sql-getting-started.html#running-sql-queries-programmatically

# Register the DataFrame as a SQL temporary view(官方解释)
# 将DataFrame注册为SQL临时视图
df.createOrReplaceTempView("a")
df.createOrReplaceTempView("b")
# 查询语句
select_sql = 'select a.*,b.* from a join b on a.xx =b.xx'
spark.sql(select_sql).show()	# 以dataframe格式展示

未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值