大数据技术原理与应用(第二章 大数据处理架构Hadoop)

本文深入探讨Hadoop,包括其分布式文件系统HDFS、MapReduce编程框架、特点及应用。详细介绍了Hadoop的项目结构如Tez、Spark、Hive等,并详述了Hadoop集群的部署和使用,如NameNode、DataNode、JobTracker和高可用性配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

2.1Hadoop简介

HDFS(分布式文件系统)

MapReduce(分布式并行编程框架)

Hadoop的特点

Hadoop的应用

​编辑Hadoop版本的变化

2.2Hadoop项目结构

Tez

Spark

Hive

Pig

Oozie

Zookeeper

HBase

Flume

Sqoop

Ambari

2.3Hadoop集群的部署和使用

NameNode

DataNode

JobTracker,TaskTracker

备份SecondaryNameNode

部署完成后进行Hadoop集群基准测试

云环境使用Hadoop


2.1Hadoop简介

Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。

Hadoop两大核心:

HDFS(分布式文件系统)

解决了海量数据的存储,顺序读写

MapReduce(分布式并行编程框架)

解决了海量数据的处理

Hadoop的特点

高可靠性:冗余副本机制

高效性:成百上千的机器一起计算,集群处理

可扩展性:可以不断向集群中加入机器

成本低:低端普通pc机

Hadoop的应用

Hadoop版本的变化

Yarn:为上层的计算框架进行底层计算资源的调度功能

NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理

HA:高可用性,对Name Node进行热备份,避免单点失效

2.2Hadoop项目结构

Tez

运行在Yarn之

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值