pyspark读写hdfs，parquet文件

最新推荐文章于 2022-04-22 16:00:29 发布

土豆土豆，我是洋芋

最新推荐文章于 2022-04-22 16:00:29 发布

阅读量5.6k

点赞数 1

分类专栏： pyspark

本文链接：https://blog.csdn.net/Ni_hao2017/article/details/88392875

版权

pyspark 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

#-*- coding:utf-8 -*-
import  json
from pyspark.sql import SparkSession
#连接集群
spark = SparkSession.builder.master("yarn-client").appName("test").getOrCreate()
#读取数据，数据位置‘hdfs://bd01:8020/a/b/part*.parquet’
df=spark.read.format('parquet').load('hdfs://bd01:8020/a/b/part*.parquet')
print df.show()
#写数据到‘data_result_path’位置，overwrite方式可更改
data.write.mode('overwrite').parquet(data_result_path)

df：
在这里插入图片描述

优惠劵

土豆土豆，我是洋芋

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
pyspark读写hdfs，parquet文件

#-*- coding:utf-8 -*-import jsonfrom pyspark.sql import SparkSession#连接集群spark = SparkSession.builder.master(&quot;yarn-client&quot;).appName(&quot;test&quot;).getOrCreate()#读取数据，数据位置‘hdfs://bd01:8020/user/root/par...
复制链接

扫一扫