java spark load_load、save方法、spark sql的几种数据源

最新推荐文章于 2023-10-26 08:22:26 发布

DoUble Du

最新推荐文章于 2023-10-26 08:22:26 发布

阅读量172

点赞数

文章标签： java spark load

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42515376/article/details/114892116

版权

本文介绍了Java Spark中load和save方法的使用，以及如何操作Parquet、JSON、Hive和JDBC数据源。示例包括从HDFS加载Parquet和JSON数据，以及数据写入过程。

摘要由CSDN通过智能技术生成

load、save方法的用法

DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet");

usersDF.select("name", "favorite_color").write()

.save("hdfs://spark1:9000/namesAndFavColors.parquet");

//load、save方法~指定文件格式

DataFrame peopleDF = sqlContext.read().format("json")

.load("hdfs://spark1:9000/people.json");

peopleDF.select("name").write().format("parquet")

.save("hdfs://spark1:9000/peopleName_java");

parquet数据源：

-》加载parquet数据

DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users.parquet");

-》parquet分区自动推断

将只有两个字段的user.parquet存到 /users/gender=male/country=us/ 目录下(如下)，

使用如下代码加载users.parquet的数据后，得到的usersDF中将会有4个字段

DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users/gender=male/country=us/users.parquet");

其中gender字段的值为male，country的值为us

-》合并元数据

parquet合并元数据： http://www.cnblogs.com/key1309/p/5332089.html

json数据源：

DataFrame studentScoresDF = sqlContext.read().json("hdfs://spark1:9000/spark-study/students.json");

//json数据源的格式要求：

Hive数据源

// 待续。。。

JDBC数据源：

http://www.cnblogs.com/key1309/p/5350179.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java spark load_load、save方法、spark sql的几种数据源

load、save方法的用法DataFrameusersDF=sqlContext.read().load("hdfs://spark1:9000/users.parquet");usersDF.select("name","favorite_color").write().save("hdfs://spark1:9000/namesAndFavColors.parquet");//loa...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。