Hadoop组件

cynthia_file

已于 2023-03-23 17:32:53 修改

阅读量46

点赞数

分类专栏：大数据文章标签： hadoop 大数据分布式

于 2023-03-09 17:58:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cynthia_file/article/details/126099976

版权

大数据专栏收录该内容

11 篇文章 0 订阅

订阅专栏

版本pk

hadoop 1.0 vs 2.0
1.0 很多单节点引起的问题,资源调度问题，资源隔离问题
2.0

Hadoop HA ：nameNode热备份多nameNode
Yarn&离线MapReduce

hadoop各组件

在这里插入图片描述

tez 构建有向无环图保证处理效率，，任务先做后做少重复
mapreduce 批处理计算
Oozie 作业流调度一个工作分成不同工作流，管理不同应用程序协同完成一个工作，先做什么再做什么
ZooKeeper
分布式协调一致性：分布锁，HBase集群管理等
多 server 启动时选举leader

HDFS
分布式文件系统

结构：
文件名
元数据（meteData）【数据存储信息】
数据块 (block)【内容】默认128M

 一个文件分为多个数据块，分存在不同dataNode中（可冗余,默认3份，可设置）
  1. NameNode ***唯一***  
  	存储元数据，内存中，block与datanode的映射关系
  2. DataNode 多节点
  	存储文件内容，磁盘中

HBase
数据库实时读写(分布式数据库)
Flume 流日志收集
sqoop 数据导入导出
Pig 流处理轻量级脚本语言类似SQL的语言
yarn 资源管理调度
Hive 数据仓库
查询语言HQL (可做整个系统的ETL)
hive:相当于编译器，将HQL语言编译程 MapReduce任务进行执行
- hive架构
- Hive HA:hive proxy 对hive实例进行管理
- HQL转mapReduce
- 分区：子目录（减小查询范围) 装载数据，记得分区
- 分桶：字段数据hash，存储，加快查询速度
  –开启分桶功能
  set hive.enforce.bucketing=true
  – 忽略掉安全检查
  hive.strict.checks.bucketing=false;
- 内部表&外部表
  为什么分内部表和外部表？
- 严格模式&非严格模式
- 分区插入数据，，每次必须全部插入吗？不能指定字段？
  分区与分桶的一些注意点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop组件

Hadoop组件 hdfs文件系统
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。