hive资料整理系列六 hive 配置

最新推荐文章于 2025-09-23 16:47:43 发布

原创最新推荐文章于 2025-09-23 16:47:43 发布 · 2.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#java #input #jdk #测试 #xml

本文介绍了Hive的基本配置步骤，包括环境变量设置、HDFS目录创建与权限配置等，并演示了如何创建数据表、加载数据及进行简单查询。

1 配置hive
1.修改bin/hive-config.sh，添加jdk支持

   Java代码 
    
export JAVA_HOME=/usr/local/jdk  
export HIVE_HOME=/data/soft/hive  
export HADOOP_HOME=/data/soft/hadoop

2.在HDFS中创建目录，并且将其开放g+w模式

   Java代码 
    
   
  
root@master:/data/soft#hadoop fs –mkdir /tmp  
root@master:/data/soft#hadoop fs –mkdir /user/hive/warehouse  
root@master:/data/soft#hadoop fs –chmod g+w /tmp  
root@master:/data/soft#hadoop fs –chmod g+w /user/hive/warehouse  

通过我的试验，以上创建目录的步骤是可以省略的，Hive会自动创建需要的目录

3. 修改conf/hive-default.xml，这个是hive的关键配置，所以一般不要直接修改，新建hive-site.xml文件，将修改的内容在这个里面配置。

   Xml代码 
    
   
  
<property>  
  <name>hive.exec.scratchdir</name>  
  <value>/data/work/hive/tmp</value>  
  <description>Scratch space for Hive jobs</description>  
</property>  
<property>  
  <name>hive.querylog.location</name>  
  <value>/data/work/hive/querylog</value>  
</property>  
<property>  
  <name>hive.hwi.listen.host</name>  
  <value>0.0.0.0</value>  
  <description>This is the host address the Hive Web Interface will listen on</description>  
</property>  
<property>  
  <name>hive.hwi.listen.port</name>  
  <value>9999</value>  
  <description>This is the port the Hive Web Interface will listen on</description>  
</property>  

2）运行hive

   Java代码 
    
root@master:/data/soft/hive/bin# ./hive  
Hive history file=/tmp/root/hive_job_log_root_201101241057_361521373.txt  
hive>

3）测试hive
1.创建数据表

   Java代码 
    
hive> create TABLE pokes( id INT, name string);  
OK  
Time taken: 8.192 seconds

默认是使用输入格式（input format）为text ，分割符号使用^A(ctrl-a).

2.创建分区的数据表

   Java代码 
    
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);   
OK  
Time taken: 36.562 seconds

包含2列和一个分区列（ds）。分区列是一个虚拟列。它不是数据自身的一部分，但是它由得到分区，详细数据加载到里面

3.显示数据表

   Java代码 
    
hive> SHOW TABLES;

显示所有的数据表

   Java代码 
    
hive> SHOW TABLES '.*s';

只显示以's'结尾的数据表

4.查询

   Java代码 
    
hive> select * from pokes;  
OK  
Time taken: 0.505 seconds

5.从本地加载数据

   Java代码 
    
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

这个文件位于hive的安装目录下， examples/files/kv1.txt

6.从hdfs加载数据

   Java代码 
    
LOAD DATA INPATH '/jd/files/kv1.txt' OVERWRITE INTO TABLE pokes;

去掉 LOCAL ，就是从HDFS加载
关键字 OVERWRITE意味着，数据表已经存在的数据将被删除。省略OVERWRITE，数据文件将会添加到原有数据列表里

7. 删除数据表

   Java代码 
    
hive> drop table pokes;  
OK  
Time taken: 0.726 seconds

4）Heap size设置
Hive默认-Xmx4096m
修改hive/bin/ext/util/ execHiveCmd.sh
HADOOP_HEAPSIZE=256

5）启动Hive Thrift Server

   Java代码 
    
hive --service hiveserver

默认使用10000端口，也可以使用HIVE_PORT来指定端口

   Java代码 
    
root@master:/data/soft/hive/bin# ./hive --service hiveserver --help  
usage HIVE_PORT=xxxx ./hive --service hiveserver  
  HIVE_PORT : Specify the server port

6）启动hwi

   Java代码 
    
bin/hive --service hwi

取消日志的方式

   Java代码 
    
nohup bin/hive --service hwi > /dev/null 2> /dev/null &

相关资料
http://wiki.apache.org/hadoop/Hive/GettingStarted
http://wiki.apache.org/hadoop/Hive/LanguageManual

hive资料整理系列 六 hive 配置

hive资料整理系列六 hive 配置