Hive metastore三种存储方式

测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore 。

一、使用derby数据库存储元数据。

这种方式是最简单的存储方式,只需要在hive-default.xml或hive-site.xml做如下配置便可。

?
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<  property  >
    <  name  >javax.jdo.option.ConnectionURL</  name  >
    <  value  >jdbc:derby:;databaseName=metastore_db;create=true</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionDriverName</  name  >
    <  value  >org.apache.derby.jdbc.EmbeddedDriver</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.local</  name  >
    <  value  >true</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.warehouse.dir</  name  >
    <  value  >/user/hive/warehouse</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.warehouse.dir</  name  >
    <  value  >/user/hive/warehouse</  value  >
</  property  >

使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库,否则会提示如下错误(这是一个很常见的错误)。

?
1
2
3
4
5
hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database 'metastore_db', see the next exception for details.
NestedThrowables:
java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

二、使用本机mysql服务器存储元数据。这种存储方式需要在本地运行一个mysql服务器,并作如下配置(下面两种使用mysql的方式,需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下)。

?
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
<  property  >
    <  name  >hive.metastore.warehouse.dir</  name  >
    <  value  >/user/hive_remote/warehouse</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.local</  name  >
    <  value  >true</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionURL</  name  >
    <  value  >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionDriverName</  name  >
    <  value  >com.mysql.jdbc.Driver</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionUserName</  name  >
    <  value  >root</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionPassword</  name  >
    <  value  >dandan</  value  >
</  property  >

三、使用远端mysql服务器存储元数据。这种存储方式需要在远端服务器运行一个mysql服务器,并且需要在Hive服务器启动meta服务。

1)Hive服务器端配置如下。

?
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
<  property  >
    <  name  >hive.metastore.warehouse.dir</  name  >
    <  value  >/user/hive_remote/warehouse</  value  >
</  property  >
 
    <  name  >javax.jdo.option.ConnectionURL</  name  >
    <  value  >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionDriverName</  name  >
    <  value  >com.mysql.jdbc.Driver</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionUserName</  name  >
    <  value  >root</  value  >
</  property  >
 
<  property  >
    <  name  >javax.jdo.option.ConnectionPassword</  name  >
    <  value  >dandan</  value  >
</  property  >

2)Hive客户端配置如下。

?
01
02
03
04
05
06
07
08
09
10
11
12
13
14
<  property  >
    <  name  >hive.metastore.warehouse.dir</  name  >
    <  value  >/user/hive_remote/warehouse</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.local</  name  >
    <  value  >false</  value  >
</  property  >
 
<  property  >
    <  name  >hive.metastore.uris</  name  >
    <  value  >thrift://localhost:9083</  value  >
</  property  >

3)服务进程启动如下,默认监听的端口是9083(Hive版本低于0.5的才这样启动)。

?
1
henshao@henshao-desktop:~/hive-0.3.99.1/conf$ $JAVA_HOME/bin/java  -Xmx1024m -Dlog4j.configuration=file://$HIVE_HOME/conf/hive-log4j.properties -Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/ -cp $CLASSPATH:$HADOOP_HOME/hadoop-0.19.2-core.jar org.apache.hadoop.hive.metastore.HiveMetaStore

这里配置classpath太麻烦了,要把hadoop和hive的jar包都加到classpath上,手动加容易导致依赖错误。我写了一个简单的脚本,把$HIVE_HOME/lib下的jar全部连起来,用冒号分隔开。脚本代码如下。

?
01
02
03
04
05
06
07
08
09
10
11
12
13
#!/bin/bash
 
CLASSPATH=.
 
for  dir  in  $*
do
      for  file  in  `  ls  $  dir  `
      do
          CLASSPATH=$CLASSPATH:$  dir  /$  file
      done
done
 
echo  $CLASSPATH

运行时,只需要输入”./generate_classpath.sh $HIVE_HOME/lib”便可。然后将生成的字符串贴到.bashrc中,赋给CLASSPATH变量。

hive启动时有一个选项”–config”可以指定包含启动客户端用的配置文件的目录,该目录下需要有hive-default.xml或hive-site.xml文件。

?
1
hive --config conf_dir

根据我的实践发现,其实第二种方法也可以将Hive的元数据保存到一台远端服务器上,只要配置好javax.jdo.option.ConnectionURL这个连接串就行。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值