本篇简单介绍hive的安装及使用。
一、hive的安装
hive使用的版本是:hive-0.9.0.tar.gz
1、解压缩、重命名、设置环境变量
命令分别如下:
tar -zxvf hive-0.9.0.tar.gz
mv hive-0.9.0 hive
vi /etc/profile
2、在目录$HIVE_HOME/conf下,重命名hive-default.xml.template和hive-env.sh.template,如下图:
3、修改hadoop的配置文件hadoop-env.sh,修改内容如下:
export HADOOP_CLASSPATH=.:$CLASSPATH:$HADOOP_CLASSPATH:$HADOOP_HOME/bin
4、在目录$HIVE_HOME/bin下面,修改文件hive-config.sh,增加以下内容:
5、在目录$HIVE_HOME/bin下启动hive:
二、mysql的安装
hive默认使用的数据库是derby,由于derby采用单会话机制,仅仅适用于调试,
并不支持多客户端的使用与开发,所以将原来的metestore配置为mysql。
1、删除Linux上已经安装的mysql相关库信息。
检查是否安装:rpm -qa | grep mysql
有则删除:rpm -e mysql-**** --nodeps
检查是否删除干净:rpm -qa | grep mysql
2、执行命令 rpm -i mysql-server-******** 安装mysql服务端;
3、启动mysql服务端,执行命令:mysql_safe &;
4、执行命令 rpm -i mysql-client-******** 安装mysql客户端;
5、执行命令mysql_secure_installation设置root用户密码。
6、把mysql的jdbc驱动放到hive的lib目录下。
7、修改hive-site.xml文件,修改内容如下:
三、hive的简单使用
1、创建内部表
创建只含一个字段的内部表并加载数据:
实际使用过程中,肯定不止一个字段,当有多个字段时,需指定字段之间的分隔符是什么,如下所示:
注意:加装数据的路径默认是在hdfs上,如果是在linux系统本地,需加上关键字local,否则报错:
2、创建分区表
在hive中,表中的一个partition对应与表下的一个目录,所有的partition的数据都存储在对应的目录中。
分区表的创建、加载数据过程如下:
加载完毕后,我们可以在web页面查看结果,如下:
3、创建外部表
外部表只有一个过程,加载数据和创建表同时完成,并不会移动数据到数据库目录下,只是与外部数据建立一个链接。
当删除一个外部表时,仅删除该链接,而数据本身依然存在。
hive的表操作就简单介绍到这里,更深入的使用请关注后续的更新,或者访问吴老师博客:http://superwu.cn/。