Hadoop组件

版本pk

hadoop 1.0 vs 2.0
1.0 很多单节点引起的问题,资源调度问题,资源隔离问题
2.0

  • Hadoop HA :nameNode热备份 多nameNode
    在这里插入图片描述
  • Yarn&离线MapReduce

hadoop各组件

在这里插入图片描述

  • tez 构建有向无环图 保证处理效率,,任务先做后做少重复

  • mapreduce 批处理计算

  • Oozie 作业流调度 一个工作分成不同工作流, 管理不同应用程序协同完成一个工作,先做什么再做什么

  • ZooKeeper
    分布式协调一致性:分布锁,HBase集群管理
    多 server 启动时选举leader

  • HDFS
    分布式文件系统

    结构:
    文件名
    元数据(meteData)【数据存储信息】
    数据块 (block)【内容】默认128M

     一个文件分为多个数据块,分存在不同dataNode中(可冗余,默认3份,可设置)
      1. NameNode ***唯一***  
      	存储元数据,内存中,block与datanode的映射关系
      2. DataNode 多节点
      	存储文件内容,磁盘中
    
  • HBase
    数据库 实时读写(分布式数据库)

  • Flume 流日志收集

  • sqoop 数据导入导出

  • Pig 流处理 轻量级脚本语言 类似SQL的语言

  • yarn 资源管理调度
    在这里插入图片描述

  • Hive 数据仓库
    查询语言HQL (可做整个系统的ETL)
    hive:相当于编译器,将HQL语言编译程 MapReduce任务进行执行

    • hive架构
      在这里插入图片描述
      在这里插入图片描述

    • Hive HA:hive proxy 对hive实例进行管理

    在这里插入图片描述

    • HQL转mapReduce

    在这里插入图片描述

    • 分区:子目录(减小查询范围) 装载数据,记得分区
    • 分桶:字段数据hash,存储,加快查询速度
      –开启分桶功能
      set hive.enforce.bucketing=true
      – 忽略掉安全检查
      hive.strict.checks.bucketing=false;
    • 内部表&外部表
      为什么分内部表和外部表?
    • 严格模式&非严格模式
    • 分区插入数据,,每次必须全部插入吗?不能指定字段?
      分区与分桶的一些注意点
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值