Spark DataFrame Dataset 的java使用入门

最新推荐文章于 2024-04-03 06:00:00 发布

踩坑小王子

最新推荐文章于 2024-04-03 06:00:00 发布

阅读量9.7k

点赞数 3

分类专栏： spark

本文链接：https://blog.csdn.net/Clark_Fitz817/article/details/85331778

版权

问题描述

环境介绍

依赖库:
spark-core_2.11 version: ‘2.4.0’
hadoop-client version: ‘3.1.1’
spark-sql_2.11 version: ‘2.4.0’
jackson-module-scala_2.11 version: ‘2.8.8’

DataFrame 和 Dataset是 spark中的一种重要数据格式,它支持使用SQL的操作去操作数据集
然而官方文档上的介绍过于简略,而且java的api文档更是简略到一定程度,例如对参数的介绍是 ‘no document’,让人无语
如果你还没开始写项目的话,建议尽早选用scala来构建吧,scala的教程多,文档也比java好很多,而且spark就是用scala编写,函数支持方面一定也是最好的
本篇blog就简介java api的使用过程,以及一些坑

问题解决

如何初始化

首先需要import的如下:

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.*;

之后,在main函数中
new 一个 SparkSession对象,

SparkSession spark = SparkSession
                .builde

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

踩坑小王子

关注关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
Spark DataFrame Dataset 的java使用入门

问题描述环境介绍依赖库:spark-core_2.11 version: ‘2.4.0’hadoop-client version: ‘3.1.1’spark-sql_2.11 version: ‘2.4.0’jackson-module-scala_2.11 version: ‘2.8.8’DataFrame 和 Dataset是 spark中的一种重要数据格式,它支持使用SQ...
复制链接

扫一扫