初识Hadoop

What Is Apache Hadoop?

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

官网描述:hadoop是一个可靠的,可以扩展的分布式开源框架。

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Hadoop软件使用简单编程模型就可以分布式处理运行在计算机集群上的大数据集。它可以处理单个节点到成千上百个集群。它并不依赖高可用的硬件就可以在应用层去做容错处理。

Hadoop的几个主要模块:

  1. Hadoop Common:支持hadoop其他模块的基础包。
  2. Hadoop Distributed File System (HDFS™):可以提供高可用的分布式文件系统。
  3. Hadoop YARN:运行于hdfs之上的作业调度,资源分配框架。
  4. Hadoop MapReduce:基于YARN的可以并行处理大数据集的框架。

下面说下分布式文件系统HDFS:

  • 将文件切分成指定大小的数据块并以多副本的形式存储在多个机器上。
  • 数据切分,多副本,容错等操作对用户是透明的。

一般HDFS上存储的数据库大小默认为128M。因为Hadoop的数据集是跑在廉价的机器上,所以HDFS会做容错处理,而容错处理是靠多副本的方式来做的。如下图
这里写图片描述

HDFS上有多个DataNode,数据块1,会有多个副本存在其他DataNode上。

资源调度系统YARN:
YARN:yet Another Recouce Negotiator
负责整个集群资源的管理和调度
yarn特点:扩展性&容错性&多框架资源统一调度
这里写图片描述

可以看出多种不同的作业可以跑在yarn上面。

MapReduce:

  • 源自Google的MapReduce论文
  • MapReduce是 Google MapReduce的克隆版
  • MapReduce特点:扩展性&容错性&海量数据离线处理

狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(Map Reduce)和资源调度(YARN)的平台。
广义的Hadoop:是指整个Hadoop生态系统。Hadoop是其中最重要的一个部分。生态系统的每一个子系统只解决某个特定的问题域。
这里写图片描述

下面说下Hadoop的常用发行版及选型:

  • Apache Hadoop
  • CDH:Cloudera Distributed Hadoop
  • HDP:Hortonworks Data platform

我们后面的用CDH版本,CDH版本在商业用的最多。

初识Hadoop大致先写这么多。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值