Spark的简介

1.spark是一门大规模数据处理的同一分析引擎.
2.Spark可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理.
3.

Hadoop Spark
基础平台, 包含计算, 存储, 调度 纯计算工具(分布式)
海量数据批处理(磁盘迭代计算) 海量数据的批处理(内存迭代计算、交互式计算)、海量数据流计算
对机器要求低, 便宜 对内存有要求 相对较贵
编程范式 Map+Reduce, API 较为底层, 算法适应性差 RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构 MapReduce中间计算结果在HDFS磁盘上, 延迟大 RDD中间运算结果在内存中 , 延迟小
Task以进程方式维护, 任务启动慢 Task以线程方式维护, 任务启动快,可批量创建提高并行能力

运行方式
4.尽管上述Spark相比较于Hadoop有较大的优势,但是Spark还是无法完全代替Hadoop,在计算层面Spark相比较于MR性能高,但是很多计算框架基于MR比如Hive,Spark仅做计算,但是Hadoop中有HDFS可以进行文件存储,Yarn可以进行文件的内存调度,很多大数据的项目基于Hadoop.
5.分布式的概念:有不同服务的服务器搭建在一起,例如一个网站中有很多的服务,需要不同的服务器,集群的概念:众多服务器只有一个大型的服务,例如百度的搜索,会在不同

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值