因为项目涉及到Hive数据的操作,所有网上查了很多关于工具类的写法,故此做一些总结以及自己踩的坑
我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hive。
Hive提供了jdbc驱动,使得我们可以用Java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。同关系型数据库一样,我们也需要将Hive的服务打开;在Hive 0.11.0版本之前,只有HiveServer服务可用,你得在程序操作Hive之前,必须在Hive安装的服务器上打开HiveServer服务。
- 操作hive的JDBC首先需要启动Hive。顺序是,
1.启动hadoop
start-dfs.sh
start-yarn.sh
2.启动mysql服务
service mysql start
3.启动hive
hive --service metastore &
hive --service hiveserver2(很重要---)
需要hive开启端口监听用户的连接:hive –service hiveserver2(这一步很重要)–涉及到hive版本的变化,这是最新版本的hiveserver服务启动,里面默认的端口号默认是10000
(1) 检查hive server2是否启动:
sudo netstat -anp | grep 10000
如果没有启动hive server2,首先启动服务:
hive --service hiveserver2
- 开发过程中的包问题
JDBC开发涉及到hadoop和hive里面两个地方的包,最简单的方式是直接导入
$HADOOP_HOME/share/hadoop/common下面的hadoop-common-*.jar
$HIVE_HOME/lib下面所有的包
避免因为版本变化,找不到合适的jar
- 如果采用Maven项目
如果你是用Maven,加入以下依赖
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>hive版本</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>对应的hadoop版本</version>
</dependency>