工业大数据处理领域的“网红”——Apache Spark

Apache Spark作为快速、通用的大规模数据处理引擎,因其速度快、易用性高、通用性强等特点,成为大数据处理领域的重要工具。Spark的发展迅速,支持多种编程语言,并拥有Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX四大组件,覆盖离线批处理、流式计算、机器学习和图计算。在工业互联网中,Spark能够应对海量数据的处理和分析,助力工业大数据的深度挖掘和决策分析。
摘要由CSDN通过智能技术生成

生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。

在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。而想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。

简单来讲,Spark就是一个快速、通用的大规模数据处理引擎,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上。今天的格物汇,就带大家来认识一下如日中天、高速发展的大数据处理明星——Spark。

1、Spark发展历程

  • 2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目,最开始Spark只是一个实验性的项目,代码量非常少,仅有3900行代码左右,属于轻量级的框架。
  • 2010年,伯克利大学正式开源了Spark项目。
  • 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期,第三方开发者贡献了大量的代码,活跃度非常高。
  • 2014年2月,Spark以飞快的速度称为了Apache的顶级项目。 2014年5月底Spark1.0.0发布。
  • 2016年6月Spark2.0.0发布 2018年11月 Spark2.4.0 发布

Spark作为Hadoop生态中重要的一员,其发展速度堪称恐怖,从诞生到成为Apache顶级项目不到五年时间,不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值