【Hive学习笔记】2

最新推荐文章于 2024-08-24 15:30:52 发布

Txixi

最新推荐文章于 2024-08-24 15:30:52 发布

阅读量1.4k

点赞数

分类专栏： Hive 文章标签： hive mysql hadoop

本文链接：https://blog.csdn.net/Txixi/article/details/121921065

版权

Hive 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本文介绍了Hive的元数据概念，包括元数据的定义、HiveMetadata的内容以及HiveMetastore的服务作用。HiveMetastore管理数据库中的元数据，提供统一的访问接口。此外，文章还分享了Hive初体验，强调HiveSQL的易学性，但因其基于MapReduce执行，处理大数据集速度快，小数据集则效率低下。适合大数据批处理场景。

摘要由CSDN通过智能技术生成

一、元数据

1、什么是元数据

元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

2、Hive Metadata

Hive Metadata就是Hive的元数据；
包含用Hive创建的database、table 、表的位置、类型、属性、字段顺序类型等元信息；
元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等。

3、Hive Metastore

Metastore就是元数据服务，Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据；
有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore服务即可。某种程度上也保证了hive元数据的安全。

在这里插入图片描述

二、Hive初体验

1、Hive与MySQL

Hive SQL语法和标准SQL很类似，使得学习成本降低不少；
Hive底层是通过MapReduce执行的数据插入动作，所以速度慢；
如果大数据集这么一条一条插入的话是非常不现实的，成本极高；
Hive应该具有自己特有的数据插入表方式，结构化文件映射成为表。

2、Hive想要将结构化数据映射成为表，就需要注意创建表时，字段顺序、字段类型要和文件中保持一致；如果类型不一致，hive会尝试转换，但是不保证转换成功。不成功显示null。

3、Hive不适合处理小数据

Hive底层的确是通过MapReduce执行引擎来处理数据的；
执行完一个MapReduce程序需要的时间不短；
如果是小数据集，使用hive进行分析将得不偿失，延迟很高
如果是大数据集，使用hive进行分析，底层MapReduce分布式计算，很快。

Txixi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Hive学习笔记】2

文章目录一、元数据1、什么是元数据2、Hive Metadata3、Hive Metastore二、使用步骤一、元数据1、什么是元数据元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。2、Hive MetadataHive Metadata就是Hive的元数据；包含用Hive创建的database、table 、表的位置、类型、属性
复制链接

扫一扫

专栏目录