Hive基础使用

最新推荐文章于 2022-08-31 10:04:45 发布

沙滩上的漫步者

最新推荐文章于 2022-08-31 10:04:45 发布

阅读量585

点赞数

分类专栏： BigData 文章标签： Hive的基础使用

本文链接：https://blog.csdn.net/Alano1994/article/details/88833262

版权

Hive是一个基于Hadoop的数据仓库工具，提供类SQL查询功能，用于大规模数据集的统计分析。它不适用于低延迟查询，适合大数据批处理作业。Hive的特点包括使用HDFS存储、类SQL查询语言HiveQL、支持多种数据格式和存储模型，如表、分区和桶。安装Hive需要配置HADOOP_HOME、MySQL服务，并进行一系列配置。常见操作包括数据库、数据类型的管理，以及表的创建、加载和分区等。

摘要由CSDN通过智能技术生成

Hive

Hive介绍

概述

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
在这里插入图片描述

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

适用场景

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此，Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

特点

Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统例如（HDFS）

Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。

支持索引，加快数据查询
不同的存储类型，例如，纯文本文件、HBase 中的文件。
将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
可以直接使用存储在Hadoop 文件系统中的数据。
内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。
类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

数据存储

首先Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。其次Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：表(Table)，外部表(External Table)，分区(Partition)，桶(Bucket)。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录存储数据。
Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中。
Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00020

Hive安装搭建

1.必须配置HADOOP_HOME环境变量
2.必须保证HDFS、YARN服务正常运行
3.需要本机安装MySQL服务 latin编码默认
Hive HQL解析引擎 – MapReduce程序
逻辑表元数据（数据路径，数据格式）需要存在 MySQL中

解压/apache-hive-1.2.1-bin.tar.gz文件到/usr目录下

tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /Usr

配置conf/hive-site.xml文件

hive-site.xml(该文件不存在，需要手动创建)

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                #hive的元数据是存在Mysql中的所以需要连接mysql
                # 这里使用本地的mysql数据库 172.16.11.19 本地的ip4地址
                <value>jdbc:mysql://172.16.11.19:3306/test</value>
                <!--使用linux中安装的mysql数据库
                <value>jdbc:mysql://hadoop:3306/test</value>
                -->
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
         <property>
                <name>javax.jdo.option.ConnectionPassword</name>my
                <value>123456</value>
         </property>
</configuration>

拷贝MySQL的驱动jar文件到hive的lib 目录

[root@hadoop apache-hive-1.2.1-bin]# mv /usr/mysql-connector-jar-5.1.6.jar /usr/apache-hive-1.2.1-bin/lib

最低0.47元/天解锁文章

沙滩上的漫步者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录