Spark2.x新特性

最新推荐文章于 2023-07-01 15:39:00 发布

知音难觅82

最新推荐文章于 2023-07-01 15:39:00 发布

阅读量1.4k

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/u011592400/article/details/80225663

版权

本文通过实例展示了如何使用Spark2.x进行数据集成，包括从HDFS读取JSON数据并进行JOIN操作，以及利用Spark Streaming进行实时流处理。在数据集成部分，演示了将employee和department JSON文件进行JOIN操作并进行分组聚合。在实时流处理部分，通过读取socket数据流，进行了单词计数，并讨论了不同输出模式在groupBy操作中的适用性。

摘要由CSDN通过智能技术生成

1 Spark2.x 新特性
1). Spark Core/SQL
在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准，支持子查询，对常用的SQL操作和DataFrame，性能有 2- 10倍的提升。
2). sparksession
Spark2 .0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API，学习 Spark2 的难度也会大大降低。
3). 统一 DataFrames 和 Datasets 的 API。
它们都是提供给用户使用，包括各类操作接口的 API， 1.3 版本引入 DataFrame， 1.6版本引入Dataset，在 spark 2.0 中，把 dataframes 当作是一种特殊的 datasets，dataframes = datasets[row]，把两者统一为datasets。
4). Structured Streaming
Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API，使得Spark Streaming充分受益Spark SQL的易用性和性能提升。
5). 其它特性
mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑，提供更多的 R 语言算法，默认使用 Scala 2.11 编译与运行。

2.SparkSql 之dataframe和dataset

2.2 SparkSession 介绍
Spark SQL 统一入口就是 SparkSession，可以通过 SparkSession.builder

最低0.47元/天解锁文章

知音难觅82

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark2.x新特性

1 Spark2.x 新特性1). Spark Core/SQL在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准，支持子查询，对常用的SQL操作和DataFrame，性能有2-10倍的提升。2). sparksessionSpark2.0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的S...
复制链接

扫一扫