Spark及生态圈概述

本文概述了Apache Spark的特点,包括其速度、易用性、通用性和跨平台运行能力。Spark与Hadoop的对比揭示了Spark在批处理、流处理、交互式计算和机器学习的优势。文章还探讨了两者的协作性,指出如何结合Hadoop的存储和调度能力与Spark的计算性能。最后,提到了Spark的多种应用场景,如SQL查询、流处理和机器学习,并简要预告了Spark的部署安装与使用。
摘要由CSDN通过智能技术生成

1.Spark概述及特点

先看下官网的描述:

这里写图片描述

Spark:快如闪电般的统一分析引擎。
Apache Spark 是一个专门为大数据集处理的统一分析引擎。有以下特点:

Speed
Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.

  • 速度
    • 从上图看出Spark的处理速度要比Hadoop快100倍以上。
    • Spark在批处理和流式处理上都具有极佳的性能。这是因为Spark使用了一种叫DAG的最佳调度,以及查询优化和物理执行引擎。

Ease of Use
Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.

  • 易用
    • 可以使用J
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值