R和hive连接

最新推荐文章于 2024-04-09 16:48:28 发布

dltan

最新推荐文章于 2024-04-09 16:48:28 发布

阅读量2.1k

点赞数

分类专栏：笔记 R语言 Rstudio 数据分析 hive

本文链接：https://blog.csdn.net/tandelin/article/details/88237306

版权

笔记同时被 3 个专栏收录

172 篇文章

订阅专栏

数据分析

81 篇文章

订阅专栏

R语言

77 篇文章

订阅专栏

1.R和hadoop的应用

（1）R直接读取HDFS的数据

（2）R连接Hive使用Hadoop的数据

（3）R通过SparkR使用Spark来处理Hadoop的数据

（4）R连接HBase使用Hadoop的数据

1.R和hive的应用

R连接Hive是通过JDBC接口来进行操作。Hive组件通过一个名为HiServer2的服务来提供JDBC接口。假设启动HiServer2的机器的IP地址为192.168.1.101，端口号为10000（默认端口），那么在192.168.1.101上运行beeline工具可以测试JDBC服务是否正常。beeline是Hive组件提供的一个sql客户端，可以通过JDBC接口连接到Hive服务。用beeline测试的结果如下:

[root@hadoop1 ~]# beeline -u jdbc:hive2://192.168.1.101:10000 -n mr
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.1.0-129/hbase/lib/phoenix-4.14.1-HBase-1.1-client.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.1.0-129/hbase/lib/phoenix-4.14.1-HBase-1.1-hive.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.1.0-129/hadoop/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Connecting to jdbc:hive2://192.168.1.101:10000
19/03/06 15:06:34 [main]: WARN jdbc.HiveConnection: Failed to connect to 192.168.1.101:10000
Error: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.1.101:10000: java.net.NoRouteToHostException: No route to host (state=08S01,code=0)
Beeline version 1.2.1000.2.6.1.0-129 by Apache Hive
0: jdbc:hive2://192.168.1.101:10000 (closed)> 
0: jdbc:hive2://192.168.1.101:10000 (closed)>

mr为hive的用户名。如果连接成功表示Hive的JDBC服务运行正常，这是我们使用R连接Hive的前提条件
R语言访问关系型数据库需要下载如下包：

rJava：R调用Java的类所需要的包

DBI：R访问关系型数据库的接口

RJDBC：RJDBC访问数据库的包

以上包可以通过执行如下脚本安装：

install.package("rJava")
install.package("DBI")
install.package("RJDBC")
library('rJava')
library('DBI')
library('RJDBC')

下载所需要的R包以后，还需要将集群中Hive JDBC的驱动包拷贝出来放在R程序所在的本地。具体步骤为：

在hive的安装目录lib下面一般有一个jdbc-standalone的jar，类似如下名字：
hive-jdbc-1.2.1000.2.4.2.0-258-standalone.jar
在hadoop的安装目录lib下有一个hadoop-common的jar，类似如下名字：
hadoop-common-2.7.1.2.4.2.0-258.jar
以上jar包的名字根据Hadoop的版本不同而不同，将以上两个jar包拷贝到R所在的系统目录下，假设目录为D:\RHive，在R中可以通过setwd函数将工作目录切换到jar包所在的目录：

  setwd("D:\\RHive")

然后执行如下R脚本完成到Hive的连接：

drv <- JDBC(“org.apache.hive.jdbc.HiveDriver”, “hive-jdbc-1.2.1000.2.4.2.0-258-standalone.jar;hadoop-common-2.7.1.2.4.2.0-258.jar”)  ###测试加载驱动
conn <- dbConnect(drv, “jdbc:hive2://IP:10000”, “mr”, “”)   ###建连接
dt = dbGetQuery(conn,“select * from hive.student limit 10”)   ###测试连接