Hive

最新推荐文章于 2024-02-19 11:45:21 发布

两只手

最新推荐文章于 2024-02-19 11:45:21 发布

阅读量559

点赞数

本文链接：https://blog.csdn.net/ttlovv/article/details/92962741

版权

Hive是建立在Hadoop上的数据仓库工具，简化了对大规模数据的查询和分析，通过类SQL语法（QL）进行操作。它解决了MapReduce编程复杂性和HDFS文件的管理问题，提供元数据服务和扩展性。Hive包括客户端组件如CLI、Thrift客户端和WEBGUI，以及服务端组件如Driver和Metastore。Hive将SQL转化为MapReduce任务，实现了数据的统计和处理。搭建Hive涉及配置环境变量、元数据库信息以及处理依赖冲突。

摘要由CSDN通过智能技术生成

前言

Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 是 SQL解析引擎，它将SQL语句转译成Map/Reduce Job然后在Hadoop执行。Hive的表其实就是HDFS的目录，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在Map/Reduce Job里使用这些数据。

为什么要使用Hive(优点)
1.解决了MapReduce编程的复杂性。我们在早期学习MapReduce 的时候,都知道它需要创建Mapper，Reduce和Job。写起逻辑来不是太容易的,学习成本是比较高的。底层封装了MapReduce和HDFS…

2.Hdfs上的文件缺少Schema。例如：缺少字段名，数据类型等，不方面数据进行有效管理。

2.1 什么是Schema

在数据库中，Schema（发音 “skee-muh” 或者“skee-mah”，中文叫模式）是数据库的组织和结构，schemas andschemata都可以作为复数形式。模式中包含了schema对象，可以是表(table)、列(column)、数据类型(data type)、视图(view)、存储过程(stored procedures)、关系(relationships)、主键(primary key)、外键(forei

最低0.47元/天解锁文章

两只手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive

前言Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处...
复制链接

扫一扫