Hadoop,HDFS

Hadoop 的核心组件

A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
B.HDFS(Hadoop Distributed File System 分布式文件系统)
C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
D.MapReduce(Map 和 Reduce 分布式运算编程框架)
Hadoop :利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分 布式处理Hive™:一个数据仓库基础设施,提供了数据总结和特别查询
ZooKeeper™:一个高性能的分布式应用程序的协调服务
Spark™:Hadoop 数据的快速、通用的计算引擎。Spark 提供了一个简单的和丰富的编 程模型,支持广泛的应用程序,包括 ETL、机器学习、流处理和图计算
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
MapReduce : 定制开发 MapReduce 程序运行于 Hadoop 集群,或者专门数据收集工具也 能进行数据预处理

数据处理过程

A、数据采集:定制开发采集程序,或使用开源框架 Flume 或者 LogStash
B、数据预处理:定制开发 MapReduce 程序运行于 Hadoop 集群,或者专门数据收集工具也能进行数据预处理
C、数据仓库技术:基于 Hadoop 之上的 Hive
D、数据导出:基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化:定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,或者 Spark,Flink
G、整个过程的流程调度:Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品
在这里插入图片描述

在这里插入图片描述

HDFS 基础使用

shell命令

-getmerge
功能:合并下载多个文件
示例: 如 hdfs 的目录 /aaa/下有多个文件:log.1, log.2,log.3,…
hadoop fs -getmerge /aaa/log.* ./log.sum
-copyFromLocal
功能:从本地文件系统中拷贝文件到 hdfs 文件系统去
示例:hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能:从 hdfs 拷贝到本地
示例:hadoop fs -copyToLocal /aaa/jdk.tar.gz

MapReduce 基础入门

在这里插入图片描述
在这里插入图片描述

  1. 接收文件,若全是小文件先进行文件的合并
  2. 在mapper中输入的是一行文本文件,先进行切割,映射,形成一对一对的<key,value>
  3. 进入shuffle阶段,首先若有分区,将<key,value>按照hashpartiton分到不同的区域中
  4. 在这个区中按照key的值进行排序
  5. 若单个key的值有点多,可以先进行局部汇总
  6. 将分区的key进行归并排序,按照key相同,将value进入reducer,进行计算
  7. 输出文件到hdfs

YARN

  1. yarn 上可以运行各种类型 的分布式运算程序(mapreduce 只是其中的一种),比如 mapreduce、storm 程序,spark 程序,tez ……
  2. 所以,spark、storm 等运算框架都可以整合在 yarn 上运行,只要他们各自的框架中有符 合 yarn 规范的资源请求机制即可

在这里插入图片描述

  1. container中启动applicationMaster
  2. Amster向resourceManager申请资源并且RM可以通过它来监控其状态
  3. AM向RM申请到资源后便与Node Manager 通信,要求启动任务
  4. NM通过RCP协议向AM汇报任务进程
  5. 会一直重复3.4直到任务完成,关闭AM
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值