spark 简单实战_大数据入门与实战-Spark上手

1 Spark简介

1.1 引言

行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要关注的是在查询之间的等待时间和运行程序的等待时间方面保持处理大型数据集的速度。

Spark由Apache Software Foundation引入,用于加速Hadoop计算计算软件过程。

与普遍看法相反,Spark不是Hadoop的修改版本,并且实际上并不依赖于Hadoop,因为它有自己的集群管理。Hadoop只是实现Spark的方法之一。

Spark以两种方式使用Hadoop - 一种是存储,另一种是处理。由于Spark有自己的集群管理计算,因此它仅将Hadoop用于存储目的。

1.2 Apache Spark

Apache Spark是一种闪电般快速的集群计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型,以便有效地将其用于更多类型的计算,包括交互式查询和流处理。Spark的主要特性是其内存中的集群计算,可以提高应用程序的处理速度。

Spark旨在涵盖广泛的工作负载,如批处理应用程序,迭代算法,交互式查询和流式处理。除了在相应的系统中支持所有这些工作负载之外,它还减少了维护单独工具的管理负担。

1.3 Apache Spark的演变

Spark是2009年在加州大学伯克利分校的Matei Zaharia的AMPLab开发的Hadoop子项目之一。它是在2010年根据BSD许可证开源的。它于2013年被捐赠给Apache软件基金会,现在Apache Spark已成为2014年2月的顶级Apache项目。

1.4 Apache Spark的功能

Apache Spark具有以下功能。

速度 - Spark有助于在Hadoop集群中运行应用程序,内存速度提高100倍,在磁盘上运行速度提高10倍。这可以通过减少对磁盘的读/写操作次数来实现。它将中间处理数据存储在存储器中。

支持多种语言 --Spark提供Java,Scala或Python内置API。因此,您可以用不同的语言编写应用程序。Spark提供了80个用于交互式查询的高级操作员。

高级分析 - Spark不仅支持'Map'和'reduce'。它还支持SQL查询,流数据,机器学习(ML)和图形算法。

1.5 Spark建立在Hadoop上

下图显示了如何使用Hadoop组件构建Spark的三种方法。

Spark部署有三种方式,如下所述。

独立 - Spark Standalone部署意味着Spark占据了HDFS(Hadoop分布式文件系统)之上的位置,并且明确地为HDFS分配了空间。在这里,Spark和MapReduce将并排运行,以涵盖集群上的所有火花作业。

Hadoop Yarn - Hadoop Yarn部署意味着,简单地说,在Yarn上运行spark,无需任何预安装或root访问。它有助于将Spark集成到Hadoop生态系统或Hadoop堆栈

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值