历时半年,Spark 2.2终于脱掉了“实验”的帽子

最新推荐文章于 2024-02-21 10:51:03 发布

DemonHunter211

最新推荐文章于 2024-02-21 10:51:03 发布

阅读量783

点赞数

分类专栏： Spark2-mlib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kwame211/article/details/80538210

版权

Spark2-mlib 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

IT168 编译】敲黑板!!!知识点来了：Apache Spark 2.2终于脱掉了“实验”的帽子，可用于实际生产环境。Spark 2.2最大的亮点就是Structured Streamin，它是用于构建Apache Spark 2.0中引入的连续应用程序的高级API，允许应用程序实时做出决策。根据博客内容，Databricks公司的目标是“更易于构建端到端的流应用程序，以一致和容错的方式与存储、服务系统和批处理作业集成。”

历时半年,Spark 2.2终于脱掉了实验帽子

　　结构化流媒体现在有了一些更高层次的变化：

　　Kafka Source和Sink：支持以流式或批量的方式从Apache Kafka中读取和写入数据

　　Kafka Improvements：缓存的生产者，从低延迟Kafka到Kafka流

　　Additional Stateful API：使用MapGroupsWithState支持复杂的状态处理和超时处理

　　Run Once Triggers：允许触发仅一次执行，从而降低集群成本

　　Apache Spark 2.2概述

　　SQL和Core API

　　Apache Spark 2.2增加了许多SQL功能：

　　API更新：统一数据源和hive serde表的CREATE TABLE语法，并为SQL查询添加广播提示，如BROADCAST，BROADCASTJOIN和MAPJOIN

　　总体性能和稳定性：

　　基于成本优化器的过滤、连接、聚合、项目和限制/样本运算符的基数估计以及基于成本的连接重新排序

　　使用星型模式的TPC-DS性能提升

　　CSV和JSON的文件列表/ IO改进

　　支持HiveUDAFF功能的部分聚合

　　引入基于JVM对象的聚合运算符

　　其他显着变化：

　　支持解析多行JSON和CSV文件

　　分析分区表上的表命令

　　MLlib和SparkR

　　MLlib和GraphX中添加了这些新算法：

历时半年,Spark 2.2终于脱掉了实验帽子

　　Spark 2.2还增加了对SparkR中分布式算法的支持：

历时半年,Spark 2.2终于脱掉了实验帽子

　　Databricks软件工程师Xiangrui Meng：MLlib的使命是让机器学习变得容易和可扩展。我们希望使数据科学家和机器学习工程师都能够轻松构建真实的机器学习(ML)管道。Spark MLlib让数据科学家和机器学习工程师的生活更轻松，从而可以专注于建立更好的ML模型和应用。我们也希望MLlib能够收集拥有更多数据，从更大规模的数据集中学习和挖掘更多价值。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。