Hadoop系统入门之初识hadoop

初识Hadoop
Hadoop 概述
Hadoop 生态系统
Hadoop 核心组件
Hadoop 发行版的选择
Hadoop 优势
Hadoop 发展史

Hadoop概述之Hadoop名字的
Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。
在这里插入图片描述
Nutch,Hadoop: Doug Cutting
Spring:

学习一个新的框架,我的风格是直接查看该项目的官网地址:
Hadoop
Hive

Apache社区的顶级项目: xxxx.apache.org
	hadoop.apache.org
	hive.apache.org
	hbase.apache.org
	spark.apache.org
	flink.apache.org
	storm.apache.org

Hadoop概述之Hadoop介绍
在这里插入图片描述
Hadoop:提供分布式的存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算。
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。

分布式文件系统: HDFS实现将文件分布式存储在很多服务器上。
分布式计算框架: MapReduce实现在很多机器上分布式并行计算。
分布式资源调度框架: YARN实现集群资源管理以及作业的调度。

Hadoop核心组件之分布式文件系统HDFS
源自于Google的GFS论文,论文发表于2003年1月。
HDFS是GFS的克隆版。
HDFS特点:扩展性&容错性&海量数量存储。
将文件切分成指定大小的数据块并以多副本的存储在多个机械上。
数据切分,多副本,容错等操作对用户是透明的。

Hadoop核心组件之分布式计算框架MapReduce
源自于Google的MapReduce论文,论文发表于2004年12月。
MapReduce是Google MapReduce的克隆版。
MapReduce特点:扩展性&容错性&海量数据离线处理。

Hadoop核心组件之资源调度系统YARN
YARN: Yet Another Resource Negotiator
负责整个集群资源的管理和调度。
YARN特点: 扩展性&容错性&多框架资源统一调度。

Hadoop核心组件之资源调度系统YARN
在这里插入图片描述
Hadoop优势之高可靠性
数据存储: 数据块多副本。
数据计算: 重新调度作业计算。

Hadoop优势之其他:
存储在廉价机器上,降低成本。
成熟的生态圈。

狭义Hadoop VS 广义Hadoop
广义的Hadoop: 指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,而是小而精的多个小系;

Hadoop生态系统
在这里插入图片描述
Hadoop生态系统的特点:
开源,社区活跃。
囊括了大数据处理的方方面面。
成熟的生态圈。

常见的Hadoop发行版:
Apache
优点: 纯开源
缺点: 不同版本/不同架构之间整合 jar冲突…吐血
CDH: https://www.cloudera.com/
优点: cm(cloudera manager)通过页面一键安装各种框架,升级。

Hortonworks: HDP 企业发布自己的数据平台可以直接基于页面框架进行改造
	优点: 原装Hadoop,纯开源,支持tez。
	缺点: 企业级安全不开源。

文件,块,副本:
文件: test.log 200M
块(block):默认的blocksize是128M,2个块=1个128M+1个72M。
副本: HDFS默认3副本。

node1: blk1 blk2 X
node2:blk2
node3:blk1 blk2
node4
node5: blk1

Hadoop核心组件之分布式文件系统HDFS
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值