Hive的搭建和基础知识

目录

1.Hive 搭建与配置

1.1.在Linux系统中解压安装包

1.2.启动Hive

1.3.创建数据库使用

2.Hive的基础知识


1.Hive 搭建与配置

大数据生态中最重要的工具平台之一是 Hive,它是离线计算的关键组件,常用于数仓建设,在公司内会通过SQL实现大数据的统计与报表。下面来看一下Hive的搭建和配置使用方法。

1.1.在Linux系统中解压安装包
tar -zxvf apache-hive-1.2.1-bin.tar.gz
mv apache-hive-1.2.1-bin/ hive1.2

1.2.修改配置文件

[root@hop01 conf]# pwd
/opt/hive1.2/conf
[root@hop01 conf]# mv hive-env.sh.template hive-env.sh
[root@hop01 conf]# vim hive-env.sh
export HADOOP_HOME=/opt/hadoop2.7
export HIVE_CONF_DIR=/opt/hive1.2/conf
root@ubuntu:~/bigdata/hive-3.1.3# cat conf/hive-site.xml 
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>hive.cli.print.header</name>
                <value>true</value>
                <description>Whether to print the names of the columns in query output.</description>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://localhost:3306/hive</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.cj.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>xxxxx</value>
        </property>
        <property>
                <name>hive.metastore.uris</name>
                <value>thrift://localhost:9083</value>
                <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
        </property>
</configuration>
1.2.启动Hive
[root@hop01 hive1.2]# bin/hive
1.3.创建数据库使用
hive> create database mytestdb;
hive> show databases ;
default
mytestdb
hive> use mytestdb;
create table hv_user (id int, name string, age int);
hive> desc hv_user;
id                  	int                 	                    
name                	string              	                    
age                 	int 

2.Hive的基础知识

        Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能**。本质上,Hive将HQL转化成MapReduce程序,在Hadoop上执行数据处理和分析任务。

        Hive的架构主要由元数据、驱动器和Hadoop组成。元数据包括表名、表所属的数据库、表的拥有者、列/分区字段等信息,这些信息默认存储在自带的Derby数据库中,但推荐使用MySQL来存储Metastore。驱动器则包含解析器、编译器、优化器和执行器,负责将用户的SQL指令翻译成可运行的物理计划。

        Hive的所有数据都存储在HDFS中,并且支持多种文件格式,如TextFile、SequenceFile、Parquet等。其优点在于简单易用(通过类SQL语言HQL)、高扩展性(基于MR和HDFS)和良好的容错性。然而,Hive也存在一些缺点,例如HQL表达能力有限,效率较低且调优困难。

        Hive提供了几种用户接口,包括HiveCLI(命令行界面)、HWI(Web界面)和HiveServer(Thrift服务),以适应不同用户的使用需求。同时,Hive还支持数据的导入导出操作,可以从本地文件系统或其它表导入数据,也可以将数据导出到本地文件系统或HDFS中。

        总的来说,Hive作为一个强大的数据仓库工具,在处理大规模数据集时具有显著的优势,尽管在某些方面存在不足,但在大数据分析和处理领域仍然得到了广泛应用。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值