Hive搭建&基本操作

本文详细介绍了Hive的安装部署过程,包括内置derby和mysql版本的设置。接着,讨论了Hive的不同启动方式,并深入讲解了建表语句,包括DDL和DML操作,如创建表、加载数据、插入和选择数据。此外,还探讨了Hive的分桶表特性和UDF开发,以及如何处理特殊分隔符。
摘要由CSDN通过智能技术生成

1.Hive 安装部署

​ Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。
​ 根据元数据存储的介质不同,分为下面两个版本,其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。

  • ## 内置 derby 版:
解压 hive 安装包
bin/hive 启动即可使用
缺点:不同路径启动 hive,每一个 hive 拥有一套自己的元数据,无法共享
当我们在摸一个路径启动hive时,最后生成的数据文件即保存在我们所在目录下,数据无法共享.
  • mysql 版:
  • (a)配置HIVE_HOME环境变量
vi conf/hive-env.sh 
        配置其中的$hadoop_home
  • (b)解压、修改配置文件
vi conf/hive-site.xml

#添加如下内容:
        <configuration>
        <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
        </property>

        <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        <description>Driver class name for a JDBC metastore</description>
        </property>

        #数据库用户登录名
        <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
        <description>username to use against metastore database</description>
        </property>
        #数据库用户登录密码
        <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
        <description>password to use against metastore database</description>
        </property>
        </configuration>
  • 配置 Mysql 元数据库信息
 yum install mysql mysql-server mysql-devel 

 完成后,用  /etc/init.d/mysqld start    启动mysql
 设置成开机自启  chkconfig mysqld on

 启动mysql控制台: 
      mysql
    mysql>; USE mysql; 
    mysql>; UPDATE user SET Password=PASSWORD('newpassword') WHERE user='root'; 
    mysql>; FLUSH PRIVILEGES; 
     允许远程登录 
    mysql -u root -p 
    Enter Password: <your new password> 
    mysql>GRANT ALL PRIVILEGES ON *.* TO '用户名'@'%' IDENTIFIED BY '密码' WITH GRANT OPTION; 
     完成后就能远程管理mysql了。   

2.Hive的几种启动方式

    1.Hive交互shell       bin/hive

    2.Hive JDBC服务(参考java jdbc连接mysql)

    3.hive启动为一个服务器,来对外提供服务
        bin/hiveserver2
        nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &

        启动成功后,可以在别的节点上用beeline去连接
        bin/beeline -u jdbc:hive2://mini1:10000 -n root

        或者
        bin/beeline
        ! connect jdbc:hive2://mini1:10000

    #####登陆的用户是虚拟机主机名字或者用户名
    #####登录密码是主机密码或者用户密码

    4.Hive命令 
        hive  -e  ‘sql’
        bin/hive -e 'select * from t_test'  

3.建表语句

  • 内部表
create table t_test(id int,name string,age int);
当我们创建一个表时,会自动在HDFS上生成一个user目录,里面最终存放我们要分析的数据,所以我们要把数据上禅道文件夹下
/user/hive/warehouse/test.db/与文件数据
但是我们查询表时,会显示表中的内容为null,所以我们要进行表数据进行关联
  • 关联数据表建表
create table t_test2(id int,name string,age int) row format delimited fields terminated by ',';
将数据上传到HDFS自动生成的路径下
/user/hive/warehouse/test.db/t_test2
我们在进行表数据的查询,就可以查询表内的数据
  • 表关系的映射
#####   hive数据库------------>/user/hive/warehouse   数据库名.db(文件夹)
        数据库下表------------> 数据库名.db(文件夹) 子文件夹  命名就是表名
        因此要想映射的数据目前来看必须在这个数据库表所对应的文件夹下面

#####   要想映射成功  表的字段个数 类型需要跟结构化数据文件中列的个数 类型要对应上

        要想映射成功  还需要在建表的时候根据结构化数据的列之间的分隔符 建表的时候指定
        row format delimited fields terminated by ‘’;

   如果不指定分隔符 还想映射成功 就要求结构化数据的分隔符是\001 这个是hive默认分隔符
   在vi 编辑模式下 Ctrl+v 然后 Ctrl+a 即可输入'\001' -----------> ^A
  • 分隔符
create table t_map(id int,name string,hobby map<string,string>)
    row format delimited                
    fields terminated by ','            ##字段
    collection items terminated by '-'  ##数组
    map keys terminated by ':' ;        ##map集合

    数据:
    1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般般
    2<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值