pyspark 数据类型转换_pyspark处理数据基本语法

本文详细介绍了使用PySpark进行数据处理的步骤,包括连接数据库、查看数据维度、字段类型检查、数据筛选、转换、统计、分组、去重等操作,以及如何实现SQL查询和数据写出。适合初学者学习和参考。
摘要由CSDN通过智能技术生成

作为一个和数据相关的专业,想学习pyspark,从而了解并学习pyspark ,以便更好的应用到工作中。

1、连接数据库

import findspark
#初始化
findspark.init()
import warnings
warnings.filterwarnings('ignore')
from pyspark.sql import SparkSession

# 定义数据库的地址,以及表,登录用户及密码
url = "jdbc:mysql://localhost:3306/xx" 
table="table"
#密码账户需要字典的形式传入
properties ={
    "user":"root","password":"12345678"}
spark = SparkSession.builder.appName('My first app').getOrCreate()
df = spark.read.jdbc(url=url,table=table,properties=properties)
df.show(4)

2、查看数据维度

df.count(),len(df.columns)# 查看数据维度

3、查看字段类型

df.printSchema()# 元数据分析,查看字段类型

77c7658a8f6b22fd452685831c8ad487.png

4、使用select 按照黎明筛选数据

df.select(['cxkh','jymc']) # 按照列名选择

5、使用filter 过滤筛选数据

df.filter((df['jyje']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值