spark_1:spark的发展

hadoop

MRv1

  • hadoop1.0采用MRv1版本,实现封装在org.apache.hadoop.mapred包,通过接口编程实现
  • 不足
    1. 扩展性差
    2. 利用率低
    3. 无法支撑多种Mapreduce框架(spark等)
  • 三个部分组成
    1. 运行时环境: Jobtracker和Tasktracker
    2. 编程模型:MapReduce
    3. 数据处理引擎:Map任务和Reduce任务

MRv2

  • 对运行环境做调整(jobtracker的单机瓶颈):

    1. 通用资源调度平台(ResourceManager )
    2. 负责各个计算框架的任务调度模型(ApplicationManager )
  • 可拔插


hadoop和spark

  • Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析
  • Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速
  • spark更适合迭代计算
  • Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作
  • 速度快

版本

spark-1.6.0
spark-1.2.0


模式

  • local
  • standalone
  • on yarn

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值