Hive的搭建和基础知识

Zxmmy_77

已于 2024-06-21 10:17:29 修改

阅读量266

点赞数 1

文章标签： hive hadoop 数据仓库

于 2024-06-20 22:37:58 首次发布

本文链接：https://blog.csdn.net/Zxmmy_77/article/details/139844172

版权

1.Hive 搭建与配置

大数据生态中最重要的工具平台之一是 Hive，它是离线计算的关键组件，常用于数仓建设，在公司内会通过SQL实现大数据的统计与报表。下面来看一下Hive的搭建和配置使用方法。

1.1.在Linux系统中解压安装包

tar -zxvf apache-hive-1.2.1-bin.tar.gz
mv apache-hive-1.2.1-bin/ hive1.2

1.2.修改配置文件

[root@hop01 conf]# pwd
/opt/hive1.2/conf
[root@hop01 conf]# mv hive-env.sh.template hive-env.sh
[root@hop01 conf]# vim hive-env.sh
export HADOOP_HOME=/opt/hadoop2.7
export HIVE_CONF_DIR=/opt/hive1.2/conf

root@ubuntu:~/bigdata/hive-3.1.3# cat conf/hive-site.xml 
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>hive.cli.print.header</name>
                <value>true</value>
                <description>Whether to print the names of the columns in query output.</description>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://localhost:3306/hive</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.cj.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>xxxxx</value>
        </property>
        <property>
                <name>hive.metastore.uris</name>
                <value>thrift://localhost:9083</value>
                <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
        </property>
</configuration>

1.2.启动Hive

[root@hop01 hive1.2]# bin/hive

1.3.创建数据库使用

hive> create database mytestdb;
hive> show databases ;
default
mytestdb
hive> use mytestdb;

create table hv_user (id int, name string, age int);

hive> desc hv_user;
id                  	int                 	                    
name                	string              	                    
age                 	int

2.Hive的基础知识

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能**。本质上，Hive将HQL转化成MapReduce程序，在Hadoop上执行数据处理和分析任务。

Hive的架构主要由元数据、驱动器和Hadoop组成。元数据包括表名、表所属的数据库、表的拥有者、列/分区字段等信息，这些信息默认存储在自带的Derby数据库中，但推荐使用MySQL来存储Metastore。驱动器则包含解析器、编译器、优化器和执行器，负责将用户的SQL指令翻译成可运行的物理计划。

Hive的所有数据都存储在HDFS中，并且支持多种文件格式，如TextFile、SequenceFile、Parquet等。其优点在于简单易用（通过类SQL语言HQL）、高扩展性（基于MR和HDFS）和良好的容错性。然而，Hive也存在一些缺点，例如HQL表达能力有限，效率较低且调优困难。

Hive提供了几种用户接口，包括HiveCLI（命令行界面）、HWI（Web界面）和HiveServer（Thrift服务），以适应不同用户的使用需求。同时，Hive还支持数据的导入导出操作，可以从本地文件系统或其它表导入数据，也可以将数据导出到本地文件系统或HDFS中。

总的来说，Hive作为一个强大的数据仓库工具，在处理大规模数据集时具有显著的优势，尽管在某些方面存在不足，但在大数据分析和处理领域仍然得到了广泛应用。

Zxmmy_77

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive的搭建和基础知识

元数据包括表名、表所属的数据库、表的拥有者、列/分区字段等信息，这些信息默认存储在自带的Derby数据库中，但推荐使用MySQL来存储Metastore。然而，Hive也存在一些缺点，例如HQL表达能力有限，效率较低且调优困难。大数据生态中最重要的工具平台之一是 Hive，它是离线计算的关键组件，常用于数仓建设，在公司内会通过SQL实现大数据的统计与报表。总的来说，Hive作为一个强大的数据仓库工具，在处理大规模数据集时具有显著的优势，尽管在某些方面存在不足，但在大数据分析和处理领域仍然得到了广泛应用。
复制链接

扫一扫