Spark基础:第一章 spark概述

本文介绍了Spark作为大数据并行计算框架的基础,强调其内存计算速度、易用性和通用性。对比了MapReduce与Spark的区别,并概述了Spark生态系统、基本概念以及架构设计,包括RDD、DAG和Stage等核心概念。
摘要由CSDN通过智能技术生成

Spark基础:第一章 spark概述


-------------------------------spark guide-----------------------------------



一、spark是什么?

  1. 基于内存计算的大数据并行计算框架
  2. 背景
    (1) 于2009年开发,可用于构建大型的、低延迟的数据分析应用程序。
    (2) 2013年Spark加入apache孵化器项目,如今是apache软件三大分布式计算系统开源项目之一(Hadoop、spark、storm)-> 批处理batch和流数据streaming data
  3. 大数据分析引擎
  4. 底层操作的是RDD

二、为什么用spark?

1. 特点

  (1) 运行速度快
    使用DAG执行引擎以支持循环数据流与内存计算

  (2) 容易使用
    支持Scala、Java、python和R语言等进行编程,可以通过spark shell进行交互式编程(REPL)

  (3) 通用性
    一栈式,包括SQL查询、流式计算、机器学习和图算法组件

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值