hadoop的含义以及常用的一些项目以及核心

最新推荐文章于 2023-08-04 00:33:59 发布

pergoods

最新推荐文章于 2023-08-04 00:33:59 发布

阅读量200

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/pergoods/article/details/84905715

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、hadoop（由于数据量急速增长，hadoop应运而生）
1.是什么？
他是一个java编写的框架
2.hadoop作用？
作用：分布式存储和分布式计算
分布式存储：（多台机器存储，例如云盘存储【分布式】）
HDFS:Hadoop分布式
分布式计算（Mapreduce）：一套程序在多台机器中运行（合理分工）
分布式计算的目的：节省计算时间，提高计算效率（TB、PB级别的数据）

要点：不是所有程序都可以进行分布式计算（只有可以分阶段的程序才能进行分布式计算）

3.Apache Hadoop
相关项目：
利用延伸框架进行操作，避免大量的底层代码
Ambar:管理、监控平台
Avro：数据序列化系统（多语言）
Cassandra:不存在单点问题的数据库（不是单点，比如：分布式数据库）
Chukwa:数据收集系统（把不同节点的数据收集起来送到不同的目的）
HBase:支持大量结构化数据存储的数据库
Hive:支持数据汇总和即席查询的数据仓库
Mahout:机器学习和数据挖掘的library
Pig：高层次的数据量语言
Spark：快速的通用的计算引擎
Tez：通用的数据流编程框架
ZooKeeper:一款高性能的分布式服务提供协调服务的框架

4.
第三方公司的hadoop
Cloudera Hadoop
HortonWorks Hadoop
数据操作系统:YARN

5.hadoop核心项目
HDFS:分布式文件系统
Yarn:资源管理平台，计算模型由MapReduce（只有它属于apache）、Storm、Spark
(资源拥堵，竞争的时候就需要管理调度)
如果说yarn是公路，那么计算模型就是各种汽车

6.HDFS的架构
（1）负责数据的分布式存储
（2）主从结构:主节点[namenode]、从节点[datanode]
(3)namenode负责：接收用户的请求，维护文件系统的目录结构，称为命名空间
(4)datanode负责：存储文件

7.Yarn的架构
(1)资源的调度和管理平台
(2)主从结构:主节点[ResourceManager]、从节点[NodeManager]
(3)ResourceManager负责：集群资源的分配、调度
(4)NodeManager负责：单节点资源的管理
8.MapReduce的架构
（1）依赖磁盘io的批处理计算模型
（2）主从结构:主节点[JobTracker]、从节点[TaskTracker]
（3）JobTracker负责：接收客户提交的计算任务、把计算任务分给TaskTracker执行，即任务调度、监控TaskTracker的执行情况
（4）TskTracker负责：执行JobTracker分配的任务