大数据学习笔记(二):Hadoop2.x概述

什么是Hadoop

  • 开源的
  • 可靠的:可以通过备份的数据恢复
  • 可扩展:机器动态的增加或减少不会影响数据的存储和计算
  • 分布式计算:多台机器并行的处理

Hadoop能做什么

海量数据的存储——HDFS

  • 存储海量数据
  • 动态的添加机器
  • 备份
  • 当数据收到损坏时,快速自动恢复

海量数据分析——mapreduce

  • 核心理念:分而治之
  • 处理海量的数据获得有价值的信息
  • mapreduce原理:
    image

假设有海量的数据要我们来数其中各个图形的数目,我们可以简化一下,如上图,要数左边的个数,可以分给两个计算机去处理,最后何总得到结果。同样的,如果有大量数据,就可以分给百台计算机去处理。

任务调度和集群资源管理——YARN

  • 资源管理(cpu,内存)
  • 通过资源管理来合理安排任务,进行任务调度

Hadoop特点

  • 扩容能力:动态增加或减少,并不会影响集群计算
  • 成本低:普通的机器也能作为集群的结点
  • 高效率:分布式计算
  • 可靠性:默认备份三份,也可以指定备份多少

应用场景

  • 日志分析:公司的每天产生的日志分析
  • 推荐系统:淘宝购买物品之后,分析你的购物,推荐物品

来看一下课程中给的一张图:image

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值