hadoop的含义以及常用的一些项目以及核心

一、hadoop(由于数据量急速增长,hadoop应运而生)
1.是什么?
他是一个java编写的框架
2.hadoop作用?
作用:分布式存储和分布式计算
分布式存储:(多台机器存储,例如云盘存储【分布式】)
HDFS:Hadoop分布式
分布式计算(Mapreduce):一套程序在多台机器中运行(合理分工)
分布式计算的目的:节省计算时间,提高计算效率(TB、PB级别的数据)

要点:不是所有程序都可以进行分布式计算(只有可以分阶段的程序才能进行分布式计算)

3.Apache Hadoop
相关项目:
利用延伸框架进行操作,避免大量的底层代码
Ambar:管理、监控平台
Avro:数据序列化系统(多语言)
Cassandra:不存在单点问题的数据库(不是单点,比如:分布式数据库)
Chukwa:数据收集系统(把不同节点的数据收集起来送到不同的目的)
HBase:支持大量结构化数据存储的数据库
Hive:支持数据汇总和即席查询的数据仓库
Mahout:机器学习和数据挖掘的library
Pig:高层次的数据量语言
Spark:快速的通用的计算引擎
Tez:通用的数据流编程框架
ZooKeeper:一款高性能的分布式服务提供协调服务的框架

4.
第三方公司的hadoop
Cloudera Hadoop
HortonWorks Hadoop
数据操作系统:YARN

5.hadoop核心项目
HDFS:分布式文件系统
Yarn:资源管理平台,计算模型由MapReduce(只有它属于apache)、Storm、Spark
(资源拥堵,竞争的时候就需要管理调度)
如果说yarn是公路,那么计算模型就是各种汽车

6.HDFS的架构
(1)负责数据的分布式存储
(2)主从结构:主节点[namenode]、从节点[datanode]
(3)namenode负责:接收用户的请求,维护文件系统的目录结构,称为命名空间
(4)datanode负责:存储文件

7.Yarn的架构
(1)资源的调度和管理平台
(2)主从结构:主节点[ResourceManager]、从节点[NodeManager]
(3)ResourceManager负责:集群资源的分配、调度
(4)NodeManager负责:单节点资源的管理
8.MapReduce的架构
(1)依赖磁盘io的批处理计算模型
(2)主从结构:主节点[JobTracker]、从节点[TaskTracker]
(3)JobTracker负责:接收客户提交的计算任务、把计算任务分给TaskTracker执行,即任务调度、监控TaskTracker的执行情况
(4)TskTracker负责:执行JobTracker分配的任务
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值