Spark简介

1.概述:

设计目的是为了让数据分析更快,不仅运算速度快,编程速度也快。既集成了hadoop Mapreduce 的优点,也解决了Mapreduce的缺陷。Spark最大的特点是将数据计算,中间结果都存储在内存中,大大减少了IO开销,因而Spark适合于迭代运算比较多的数据挖掘和机器学习中。

2.特点:

1)运行速度快:支持循环数据流和内存计算,计算速度是hadoop mapreduce  的数十倍。

2)易于使用:支持scala,java,python,R进行编程。

3)通用性:提供了完整的技术栈,包SQL查询,流式计算,机器学习,和图算法组件。

4)运行模式多样:可以运行在独立的集群中,也可以在Hadoop中,可以访问HDFS,HBase,Hive多种数据源。

3.Spark生态系统:

1)Spark Core

包含Spark的基本功能,如内存计算,任务调度,部署模式,故障恢复,存储管理等,主要面向批数据处理。

2)Spark Sql

允许开发人员直接处理RDD,同时可以查询Hive,Hbase等外部数据源

3)Spark Streaming

支持高吞吐量,可容错处理的实时流数据处理。

4)MLIib

提供常用机器学习算法的实现

5)GraphX

是Spark中用于图计算的API

4.应用场景

应用场景时间跨度Spark生态系统组件
复杂的数据批量处理小时级

Spark Core

基于历史数据的交互式查询分钟级,秒级Spark Sql
基于实时数据流的数据处理毫秒,秒级Spark Sreaming
基于历史数据的数据挖掘 MLlib
图结构数据处理 GraphX

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北.海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值