复习hadoop

1 do what
ssh-交互 hadoop-计算
2 what is apache hadoop?
是个服务于开源软件(提供可靠可扩展分布式计算)的project。
3 解决的问题包含有:

  1. 海量数据存储(数据量很大hdfs)
  2. 海量数据分析(mapreduce)
  3. 资源管理调度(细节,yarn)

大数据用到很多技术,融入了很多名企的优秀技术;例如hive(facebook的技术)
mahout(亚马逊贡献的)
nutch(爬虫)等等都属于其底层东西。。。。

集群(模块或节点之间互相协作)分布式是hadoopd 的关键词,核心是HDFS分布式文件系统(和NDFS有许多相似处) YARN资源管理调度系统 Mapreduce分布式运算框架(程序)

云计算 和大数据不一样,云计算这块当中完全成熟的技术是虚拟化技术。
hdfs,实现机制:文件被切块存在多台服务器 ,对客户端,不需要关心分布式的细节,hdfs提供了一个抽象的统一的目录树;每一个文件块可以保存多个副本;hdfs中的文件和具体实际存储的位置之间的对应关系由一个专门的服务器管理-namenode。
mapreduce*较复杂*
map(高并发 互不干扰的运算)得到局部结果==> 遍历汇总==>reduce(经过一定逻辑运算)后得到全局结果。总而言之就是

  1. 将一个业务处理需求分成两个阶段 map阶段和reduce阶段
  2. 将分布式计算中面临的公共的问题封装成框架来实现(jar包的分发 任务的启动 任务的容错 调度 中间结果的分组传递)
    (应用开发人员只需要关心业务逻辑)
    类似的mapreduce(离线分析计算)分布式运算框架还有 storm(流式计算) spark(内存迭代计算)..
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值