Hadoop相关基础学习

最新推荐文章于 2024-05-01 17:24:41 发布

hglhjh

最新推荐文章于 2024-05-01 17:24:41 发布

阅读量203

点赞数

分类专栏：大数据

原文链接：https://www.cnblogs.com/qingyunzong/

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop基础

在这里插入图片描述
学习转载自：https://www.cnblogs.com/binarylei/p/8903601.html
https://blog.csdn.net/yuan_xw/article/details/50003197

Hive的基础

定义：Hive是基于Hadoop的数据仓库工具，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。
解决的问题：
1、hadoop学习成本高
与Hadoop的关系：
在这里插入图片描述
架构：

HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(Logical Plan)，然后通过的优化处理，产生一个 MapReduce 任务。
1、用户接口
shell/CLI：终端命令行，采用交互形式使用 Hive 命令行与 Hive 进行交互
jdbc/odbc：是 Hive 的基于 JDBC 操作提供的客户端
webUI：通过浏览器访问 Hive
2、跨语言服务
thrift server 提供了一种能力，让用户可以使用多种不同的语言来操纵hive
3、底层的Driver
驱动器Driver，编译器Compiler，优化器Optimizer，执行器Executor
Driver 组件完成 HQL 查询语句从词法分析，语法分析，编译，优化，以及生成逻辑执行计划的生成。生成的逻辑执行计划存储在 HDFS 中，并随后由 MapReduce 调用执行
Hive 的核心是驱动引擎，驱动引擎由四部分组成：
　　　　(1) 解释器：解释器的作用是将 HiveSQL 语句转换为抽象语法树（AST）
　　　　(2) 编译器：编译器是将语法树编译为逻辑执行计划
　　　　(3) 优化器：优化器是对逻辑执行计划进行优化
　　　　(4) 执行器：执行器是调用底层的运行框架执行逻辑执行计划
4、元数据存储系统
Hive 中的元数据通常包括：表的名字，表的列和分区及其属性，表的属性（内部表和外部表），表的数据所在目录。
Metastore 默认存在自带的 Derby 数据库中。缺点就是不适合多用户操作，并且数据存储目录不固定。数据库跟着 Hive 走，极度不方便管理
解决方案：通常存我们自己创建的 MySQL 库（本地或远程）
Hive 和 MySQL 之间通过 MetaStore 服务交互

5、设计特点

支持创建索引，优化数据查询.
不同的存储类型，例如，纯文本文件、HBase 中的文件.
将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间
可以直接使用存储在Hadoop 文件系统中的数据
内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作
类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行

转载自：https://www.cnblogs.com/qingyunzong/p/8707885.html

Hbase的基础

定义：大数据库，支持读写
表结构解析：
在这里插入图片描述
1、Rowkey：主键（唯一区分一行数据）
2、ColumnFamily：列族（包含多个列）， Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。列簇名称个数一旦确定，后期不可更改。列名可动态添加。多个列簇名用逗号隔开，列簇名不宜过多。每个Cell都会保存列簇名，因此列簇名不宜过长，否则会有一定的存储成本。类似的，列名也不宜过长。
3、TimeStamp：版本控制
TimeStamp对Hbase来说至关重要，因为它是实现Hbase多版本的关键。在Hbase中使用不同的timestamp来标识相同rowkey行对应的不通版本的数据。
4、单元格（Cell）
由{rowkey, column( = + ), version} 唯一确定的单元。 Cell 中的数据是没有类型的，全部是字节码形式存贮。

Hive和Mysql的区别

（1）hive和关系数据库存储文件的系统不同，hive使用的是hadoop的HDFS（hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统；
（2）hive使用的计算模型是mapreduce，而关系数据库则是自己设计的计算模型；
（3）关系数据库都是为实时查询的业务进行设计的，而hive则是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致hive的应用场景和关系数据库有很大的不同；
（4）Hive很容易扩展自己的存储能力和计算能力，这个是继承hadoop的，而关系数据库在这个方面要比数据库差很多。
（5）关系数据库里，表的加载模式是在数据加载时候强制确定的（表的加载模式是指数据库存储数据的文件格式），如果加载数据时候发现加载的数据不符合模式，关系数据库则会拒绝加载数据，这个就叫“写时模式”，写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不同，hive在加载数据时候不会对数据进行检查，也不会更改被加载的数据文件，而检查数据格式的操作是在查询操作时候执行，这种模式叫“读时模式”。在实际应用中，写时模式在加载数据时候会对列进行索引，对数据进行压缩，因此加载数据的速度很慢，但是当数据加载好了，我们去查询数据的时候，速度很快。但是当我们的数据是非结构化，存储模式也是未知时候，关系数据操作这种场景就麻烦多了，这时候hive就会发挥它的优势。
（6）关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作，hive不支持对某个具体行的操作，hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征，这些hive都不支持，也不打算支持，原因是hive的设计是海量数据进行处理，全数据的扫描时常态，针对某些具体数据进行操作的效率是很差的，对于更新操作，hive是通过查询将原表的数据进行转化最后存储在新表里，这和传统数据库的更新操作有很大不同。
（7）Hive也可以在hadoop做实时查询上做一份自己的贡献，那就是和hbase集成，hbase可以进行快速查询，但是hbase不支持类SQL的语句，那么此时hive可以给hbase提供sql语法解析的外壳，可以用类sql语句操作hbase数据库。

Hive和Hbase的区别

Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。
区别：Hbase是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询；Hive严格来说，不是数据库，主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据，适用于离线的批量数据计算。

联系：Hive和HBase是协作关系，数据流一般如下
在这里插入图片描述

通过ETL工具将数据源抽取到HDFS存储；
通过Hive清洗、处理和计算原始数据；
HIve清洗处理后的结果，如果是面向海量数据随机查询场景的可存入Hbase
数据应用从HBase查询数据；

更多学习可参照：https://www.cnblogs.com/qingyunzong/

hglhjh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop相关基础学习

Hadoop基础学习转载自：https://www.cnblogs.com/binarylei/p/8903601.htmlhttps://blog.csdn.net/yuan_xw/article/details/50003197Hive的基础定义：Hive是基于Hadoop的数据仓库工具，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据...
复制链接

扫一扫