Spark入门

Apache Spark是一款设计用于快速计算的集群技术,扩展了MapReduce,支持批处理、交互式查询、流处理等多种工作负载。其特点包括内存计算提升速度、多语言API支持和高级分析功能。在Hadoop上构建Spark可通过Standalone、Yarn和SIMR等方式。Spark组件包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX,适用于不同的数据分析和机器学习场景。
摘要由CSDN通过智能技术生成

一、Spark概述

Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。 它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。

Spark的主要特点是其内存集群计算,可提高应用程序的处理速度,Spark旨在涵盖各种工作负载,如批处理应用程序,迭代算法,交互式查询和流式处理。 除了在各自的系统中支持所有这些工作负载之外,它还减少了维护单独工具的管理负担。

二、Apache Spark特性

1、Speed:Spark有助于在Hadoop集群中运行应用程序,内存速度提高了100倍,在磁盘上运行速度提高了10倍。 这可以通过减少对磁盘的读/写操作来实现。 它将中间处理数据存储在内存中。

2、支持多种语言:Spark提供Java,Scala或Python中的内置API。 因此,您可以使用不同的语

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值