Spark-1.5/1.6的新特性

最新推荐文章于 2019-07-29 16:30:00 发布

kwu_ganymede

最新推荐文章于 2019-07-29 16:30:00 发布

阅读量1.9k

点赞数 1

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/kwu_ganymede/article/details/51298937

版权

Spark 专栏收录该内容

71 篇文章 2 订阅

订阅专栏

Spark 1.5.x的新特性

1、DataFrame底层执行的性能优化（钨丝计划第一阶段）
1.1 Spark自己来管理内存，而不再依靠JVM管理内容。这样就可以避免JVM GC的性能开销，并且能够控制OOM的问题。
1.2 Java对象直接使用内部的二进制格式存储和计算，省去了序列化和反序列化的性能开销，而且更加节省内存开销。
1.3 完善了Shuffle阶段的UnsafeShuffleManager，增加了不少新功能，优化shuffle性能。
1.4 默认使用code-gen，使用cache-aware算法，加强了join、aggregation、shuffle、sorting的性能，增强了window function的性能，性能比1.4.x版本提高数倍

2、DataFrame
2.1 实现了新的聚合函数接口，AggregateFunction2，并且提供了7个新的内置聚合函数。
2.2 实现了100多个新的expression function，例如unix_timestamp等，增强了对NaN的处理
2.3 支持连接不同版本的hive metastore
2.4 支持Parquet 1.7

3、Spark Streaming：更完善的python支持、非实验的Kafka Direct API等等。

Spark 1.6.x的新特性
Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进：性能提升，新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。
1. 性能提升
根据 Apache Spark 官方 2015 年 Spark Survey，有 91% 的用户想要提升 Spark 的性能。
Parquet 性能
自动化内存管理
流状态管理速度提升 10X

2. Dataset API
Spark 团队引入了 DataFrames，新型Dataset API。

3. 新的科学计算功能
机器学习管道持久性
新的算法和功能：
univariate and bivariate statistics
survival analysis
normal equation for least squares
bisecting K-Means clustering
online hypothesis testing
Latent Dirichlet Allocation (LDA) in ML Pipelines
R-like statistics for GLMs
feature interactions in R formula
instance weights for GLMs
univariate and bivariate statistics in DataFrames
LIBSVM data source
non-standard JSON data