hadoop hive集群_第二章：Hive&Hadoop相关概念

最新推荐文章于 2024-04-23 14:15:46 发布

weixin_39855186

最新推荐文章于 2024-04-23 14:15:46 发布

阅读量129

点赞数

文章标签： hadoop hive集群 hadoop是做什么的 hadoop生态圈 hive按中文拼音排序

本章都是一些基本概念了，看看和了解就行，不用特别在意，重点在于之后的实操和案例。

2.运行的粗浅原理【SQL转换为MapReduce的过程】

3.Hive的优缺点(其实就是MR语言的优缺点)

【一般用于离线业务分析（每个月、每年活跃用户之类的）】

注：迭代计算是指原始数据计算出第一次结果，再在这个基础上计算出后面需要的结果【Hadoop是用多个MR串联】；

4.HIve架构原理

hdfs存储数据，计算使用MR；
CLI是命令行类型的客户端，也可以用JDBC这个接口去驱动(四个属性：javaurluser namepassword)；
Driver驱动有4块内容(表示HQL转化为MR经过了哪些组件)：解析器将HQL找模板；编译器翻译成具体的代码；hive越高版本对HQL越有优化(类似MYSQL里小表驱动大表，小表放前面，hive自己优化，0.9版本之后)；执行器

Meta store：元数据是表和文件之间的对应关系【位置、对应、大小、属性之类的】（hive是类SQL语句，是有表，数据file存在hdfs里，比如是一个月的文件file，当select * from t2时）表-元数据-文件；hive的元数据都不是自己存的，是Mysql存的；

5.Hive和数据库比较：区别在于

【查询语言、数据存储位置、数据更新、索引、执行、执行延迟、可扩展性、数据规模】

Vmware*1虚拟机软件；centos7*3三台虚拟机；3节点的Hadoop集群；

主要内容：大数据的发展背景；Hadoop是什么；Hadoop生态圈及架构；什么是分布式文件系统；hdfs的工作流程；MapReduce的工作流程；Hadoop常用命令；
资源管理器相当于namenode；

2.大数据背景

3.Hadoop是什么

Hadoop是什么：开源的分布式系统基础架构，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式；
分布式文件系统(GFS)、分布式存储(Bigtable)、分布式计算(mapreduce)；

4. Hadoop生态系统(应用软件有哪些)

5.Hadoop架构和组件【YARN类似于内存】

6.hdfs分布式文件系统

集群：很多人在一起干相同的活；分布式很多人在一起干不同的活；

7.hdfs核心设计【文件特别大时，比如：500T】

8.体系结构

namenode：接受客户端的读写请求，存储元数据信息，接收DataNode的心跳报告，负载均衡【Hadoop主节点，Hadoop是主从模式；管理从节点并分配任务，存储DataNode上的一些信息(比如：数据大小、位置、任务说明)】；
DataNode：从节点，真正干活的服务器，存储和计算发生在其中；
namenode和DataNode三种机制：

1.心跳（namenode确定工作节点是否还活着，挂了就分配给其他人）；每个DataNode有3小块，黑色表示备份，挂了相邻两个节点有备份；

2.负载均衡机制：相互之间压力互分担；

3.secondary namenode: 不是备份，是做辅助工作分担namenode压力的

例子：搜索热度【词频统计】：输入数据-分片-打上小标签(出现几次)-洗牌按字典排序-相同单词整理到一个分片中-输出最后结果

关注