使用pyspark SQL处理MySQL中的数据

最新推荐文章于 2024-06-05 16:41:43 发布

Nick_Spider

最新推荐文章于 2024-06-05 16:41:43 发布

阅读量1.4k

点赞数 2

分类专栏：大数据 python pyspark 文章标签： spark pyspark mysql python 大数据

本文链接：https://blog.csdn.net/weixin_39198406/article/details/104914292

版权

pyspark连接mysql

前提是需要下载jar包。
Mysql-connector-java.jar

from pyspark import SparkContext
from pyspark.sql import SQLContext
import pyspark.sql.functions as F


sc = SparkContext("local", appName="mysqltest")
sqlContext = SQLContext(sc)
df = sqlContext.read.format("jdbc").options(
    url="jdbc:mysql://localhost:3306/mydata?user=root&password=mysql&"
        "useUnicode=true&characterEncoding=utf-8&useJDBCCompliantTimezoneShift=true&"
        "useLegacyDatetimeCode=false&serverTimezone=UTC ", dbtable="detail_data").load()
df.show(n=5)
sc.stop()

pyspark SQL常用语法

pyspark SQL的部分语法和pandas的很相似。

输出schema

df.printSchema()
# root
#  |-- id: integer (nullable = true)
#  |-- 省份: string (nullable = true)

预览表

df.show(n=5)
# +----+------+------+------+------+
# |  id|  省份|  城市|  区县|  区域|
# +----+------+------+------+------
# |2557|广东省|深圳市|罗湖区|春风路
# ...

统计数量

print(df.count())
# 47104

输出列名称和字段类型

print(df.columns)
# ['id', '省份', '城市', '区县', '区域', '小区', '源地址',...
print(df.dtypes)
# [('id', 'int'), ('省份', 'string'), ('城市', 'string'),...

选择列

df.select('城市', '区县', '区域', '小区').show()
# +------+------+------+--------------+
# |  城市|  区县|  区域|          小区|
# +------+------+------+--------------+
# |深圳市|罗湖区|春风路|      凯悦华庭|
# |深圳市|罗湖区|春风路|      置地逸轩|
# ...

为选择的列赋予新名称

可以看到有两种方式来对指定列做操作：

列名称是英文的话，直接在df后面用点号调用
列名称非英文，可以在后面用中括号调用

df.select(df.id.alias('id_value'), '小区'

最低0.47元/天解锁文章

Nick_Spider

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
使用pyspark SQL处理MySQL中的数据

目录pyspark创建DataFrameRDD和DataFrame使用二元组创建DataFramepyspark连接mysqlpyspark SQL常用语法输出schema预览表统计数量输出列名称和字段类型选择列为选择的列赋予新名称按条件过滤构造新列增加行删除重复记录删除列删除缺失值行填充缺失值分组统计和计算函数计算描述性分析参考链接pyspark创建DataFrame为了便于操作，使用pys...
复制链接

扫一扫