hadoop 简介

Hadoop 简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

  1. Apache版本最原始(最基础)的版本,对于入门学习最好。2006

官网地址:http://hadoop.apache.org
下载地址:https://hadoop.apache.org/releases.html

  1. Cloudera内部集成了很多大数据框架,对应产品CDH。2008

官网地址:https://www.cloudera.com/downloads/cdh
下载地址:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html

  1. Hortonworks文档较好,对应产品HDP。2011
    Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP

官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform

Hadoop组成

在这里插入图片描述

HDFS 简介
  • NameNode:

存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等

  • DataNode:

存储文件块数据

  • Secondary NameNode:

    用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS 元数据的快照

Yarn 简介

在这里插入图片描述

  • ResourceManager:
  1. 处理客户端请求
  2. 监控NodeManager
  3. 启动/监控ApplicationMaster
  4. 资源分配与调度
  • ApplicationMaster:
  1. 数据切分
  2. 为应用程序申请资源,并分配给内部任务
  3. 任务监控与容错
  • NodeManager:
  1. 管理单个节点上的资源
  2. 处理来自ResourceManager的命令
  3. 处理来自ApplicationMaster的命令
  • Container:

对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息

MapReduce 简介

MapReduce将计算过程分为两个阶段:Map 和 Reduce

  1. Map阶段并行处理输入数据

  2. Reduce阶段对Map结果进行汇总

Hadoop目录结构

  1. bin目录:
    存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
  2. etc目录:
    Hadoop的配置文件目录,存放Hadoop的配置文件
  3. lib目录:
    存放Hadoop的本地库(对数据进行压缩解压缩功能)
  4. sbin目录:
    存放启动或停止Hadoop相关服务的脚本
  5. share目录:
    存放Hadoop的依赖jar包、文档、和官方案例

Hadoop运行模式

  1. 本地模式
  2. 伪分布式模式
  3. 完全分布式模式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值