pyspark 加载jar_pyspark之输入输出

最新推荐文章于 2022-02-21 19:23:07 发布

金刚廉神兽

最新推荐文章于 2022-02-21 19:23:07 发布

阅读量108

点赞数

文章标签： pyspark 加载jar

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42591413/article/details/112954723

版权

pyspark读写dataframe1. 连接spark

2. 创建dataframe2.1. 从变量创建

2.2. 从变量创建

2.3. 读取json

2.4. 读取csv

2.5. 读取MySQL

2.6. 从pandas.dataframe创建

2.7. 从列式存储的parquet读取

2.8. 从hive读取

2.9.从hdfs读取

3. 保存数据3.1. 写到csv

3.2. 保存到parquet

3.3. 写到hive

3.4. 写到hdfs

3.5. 写到mysql

1. 连接spark

from pyspark.sql import SparkSession

spark=SparkSession \

.builder \

.appName('my_first_app_name') \

.getOrCreate()

2. 创建dataframe

2.1. 从变量创建

# 生成以逗号分隔的数据

stringCSVRDD = spark.sparkContext.parallelize([

(123, "Katie", 19, "brown"),

(234, "Michael", 22, "green"),

(345, "Simone", 23, "blue")

])

# 指定模式, StructField(name,dataType,nullable)

# 其中：

# name: 该字段的名字，

# dataType：该字段的数据类型，

# nullable: 指示该字段的值是否为空

from pyspark.sql.types import StructType, StructField, LongType, StringType # 导入类型

schema = StructType([

StructField("id", LongType(), True),

StructField("name", StringType(), True),

StructField("age", LongType(), True),

StructField("eyeColor", StringType(), True)

])

# 对RDD应用该模式并且创建DataFrame

swimmers = spark.createDataFrame(stringCSVRDD,schema)

# 利用DataFra

最低0.47元/天解锁文章

金刚廉神兽

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark 加载jar_pyspark之输入输出

pyspark读写dataframe1. 连接spark2. 创建dataframe2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取2.9.从hdfs读取3. 保存数据3.1. 写到csv3.2. 保存到parquet3.3. 写...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。