一篇文章带你全面了解什么是Hive

一、Hive介绍

1.1、简介

  1.    Hive是一个数据仓库软件。
  2.    Hive主要使用HQL(类sql)来分析已经存储在分布式设备(HDFS)上的数据!
  3.    Hive的本质是将用户编写的HQL,转换为MR程序,对数据进行分析!
  4.    Hive分析的数据必须是结构化的数据,在分析之前,用户需要对数据创建表结构!
  5.    Hive的表结构(shema)存储在关系型数据库中,数据是存储在HDFS上,二者通过表进行映射!
  6.    Hive基于OLAP设计,基于OLAP设计的软件,一般重分析,延时高!

     
1.2、安装

  1.    保证环境变量中有JAVA_HOME
  2.    基于HADOOP工作,保证环境变量中有HADOOP_HOME
  3.    在环境变量中配置HIVE_HOME,默认hive在启动时,会读取HIVE_HOME/conf中的配置文件

1.3、配置

  1.    自定义hive的一些属性,需要在conf/hive-site.xml文件,配置自定义的属性:        参数读取的顺序:   hadoop中的8个配置文件------>hive-default.xml------>hive-site.xml----->hive --hiveconf x=x;
  2.    修改hive输出日志的位置:修改conf/hive-log4j-properties文件。

1.4、元数据存储

  1.    hive默认将元数据存储在derby中;
  2.    derby数据库适合在一些Java开发的程序中作为内嵌的数据库!但是derby不支持多个实例同时访问一个库;       
  3.    将hive的元数据存储位置修改为存放在mysql中;

       注意:

           ①元数据存储的数据库的编码必须为latin1 

           ②mysql的 binlog_format=mixde|row


               
1.5、hive的交互参数

  1.         -d:   定义一个 变量名=变量值,在hivecli中可以使用  ${变量名}来读取变量值
  2.         -e:   执行一个引号引起来的sql语句,执行后返回结果,退出cli,用在脚本中!
  3.         -f:   执行一个sql文件,执行后返回结果,退出cli,用在脚本中!
  4.         -S:   静默模式,不输出和结果无关的多余信息
  5.         --hiveconf  属性名=属性值,在hivecli启动之前定义一个属性名

        
1.6、在hive中如何查看变量

  1.         set: 查看当前cli所有的变量
  2.         set 变量名: 查看某个指定变量的值
  3.         set 变量名=变量值: 修改某个变量的值

        
1.7、连接hive的方式

 

  1.        使用hivecli
  2.       可以使用JDBC方式连接hive

        (1)启动JDBC的服务端----hiveserver2
        (2)使用JDBC方式的客户端来访问
                    beeline  !connect 'jdbc:hive2://hiveserver2服务运行的主机名:10000'
                    使用其他JDBC客户端
                    


1.8、hive中常用的命令

  1.     在hive中使用hdfs:    dfs  命令
  2.     在hive中使用shell命令:   ! shell命令

    
1.9、数据类型

  1.         在hive中最常用的数据类型就是String;
  2.         基本数据类型中,低精度的类型和高精度的类型进行计算时,hive会自动进行隐式转换,将低精度转为高精度;
  3.         boolean类型无法进行隐式转换;
  4.         使用cast(值 as 类型)进行强制转换;

        
        集合类型:
                Array:  数组,使用下标定位数组中的元素
                Map:   key-value,使用key获取value的值
                Struct:  通过struct.属性名获取属性对应的值
                


1.10、数据的格式

  1.         hive只能分析结构化的数据!在使用hive之前,需要对数据进行ETL,转为结构化的数据;
  2.         在建表时,需要指定正确的分隔符,不然hive在读取每行数据时,无法将字段和数据进行映射。

    
1.11、hive的本质

  1.        在hive中创建的表,库都在hdfs上有相应的路径;
  2.        表中的数据,是文件的形式在表对应的目录中存放;
  3.        在建表和建库后,会在Mysql中生成对应的shema信息:

        tbls: 存放表的元数据
        dbs:  库的元数据
        column_v2: 列的元数据


二、库操作


2.1、增

  1.         create database if not exists 库名
  2.         comment 库的注释
  3.         location  库的路径
  4.         with dbproperties(属性名=属性值,...)

2.2、删

  1.         drop database 库名: 删除空库
  2.         drop database 库名 cascade: 删除非空库

2.3、改


        alter database 库名 set dbproperties(属性名=属性值,...)

2.4、查

  1.         show databases: 查看所有库
  2.         show tables in 库名:  查看库中的表
  3.         desc database 库名:查看某个库的描述
  4.         desc database extended 库名:查看某个库的详细描述

      
三、表操作


3.1、创建表(增)


        create [external] table  if not exists 表名
        (列名 列类型 comment 列注释,...)
        comment 表的注释
        .....
        row format ... //表中每行数据的格式
        store as  xxxx  //表中数据的存储格式
        location  //表的路径
        
    创建表,带external,这个表是外部表,不带是管理表(内部表)
    
    外部表在删除表时,只删除mysql中的元数据!
    管理表在删除表时,删除mysql中的元数据和在hdfs表目录中的数据!

    
    表是廉价的,数据是珍贵的,一般都建议外部表!
    
    外部表:  alter table 表名 set tblproperties('EXTERNAL'='TRUE')
    内部表:  alter table 表名 set tblproperties('EXTERNAL'='FALSE')

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)]   //表中的字段信息
[COMMENT table_comment] //表的注释

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] // 创建分区表

[CLUSTERED BY (col_name, col_name, ...) //分桶表
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  //分桶后排序

[ROW FORMAT row_format]  // 表中数据每行的格式,定义数据字段的分隔符,集合元素的分隔符等

[STORED AS file_format] //表中的数据要以哪种文件格式来存储,默认为TEXTFILE(文本文件)
					可以设置为SequnceFile或 Paquret,ORC等
[LOCATION hdfs_path]  //表在hdfs上的位置


其他建表:
            只复制表结构:  create table 表名 like  表名1
            执行查询语句,将查询语句查询的结果,按照顺序作为新表的普通列:create table 表名  as select 语句 
                        不能创建分区表!


3.2、删

  1.         drop table 表名:删除表
  2.         truncate table 表名:清空管理表,只清空数据

3.3、改


        改表的属性:  alter table 表名 set tblproperties(属性名=属性值)
   
        对列进行调整:
                改列名或列类型: alter table 表名 change [column] 旧列名 新列名 新列类型 [comment 新列的注释]  
                                 [FIRST|AFTER column_name] //调整列的顺序
                                 
                添加列和重置列:ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...) 

3.4、查

  1.         desc  表名: 查看表的描述
  2.         desc formatted 表名: 查看表的详细描述

        

        

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值