作为一个和数据相关的专业,想学习pyspark,从而了解并学习pyspark ,以便更好的应用到工作中。
1、连接数据库
import findspark
#初始化
findspark.init()
import warnings
warnings.filterwarnings('ignore')
from pyspark.sql import SparkSession
# 定义数据库的地址,以及表,登录用户及密码
url = "jdbc:mysql://localhost:3306/xx"
table="table"
#密码账户需要字典的形式传入
properties ={
"user":"root","password":"12345678"}
spark = SparkSession.builder.appName('My first app').getOrCreate()
df = spark.read.jdbc(url=url,table=table,properties=properties)
df.show(4)
2、查看数据维度
df.count(),len(df.columns)# 查看数据维度
3、查看字段类型
df.printSchema()# 元数据分析,查看字段类型
4、使用select 按照黎明筛选数据
df.select(['cxkh','jymc']) # 按照列名选择
5、使用filter 过滤筛选数据
df.filter((df['jyje']