配置spark令其支持hive

原创 2016年08月31日 11:17:04
确保scala版本
Spark1.4搭配Scala 2.10
Spark1.6搭配Scala 2.10
Spark2.0搭配Scala 2.11

查看lib
Hive需要三个jar包,分别是datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10.jar、datanucleus-rdbms-3.2.9.jar,如果已经有了就不需要重新编译了。如果需要重新编译,源码下载地址如下:https://github.com/apache/spark/releases/tag/v1.6.2

复制hive/hdfs配置文件
cd /appl/hive-1.2.1/conf
cp hive-site.xml /appl/spark-1.6.2/conf/
cd /appl/hadoop-2.7.0/etc/hadoop
cp core-site.xml /appl/spark-1.6.2/conf/
cp hdfs-site.xml /appl/spark-1.6.2/conf/

(the datanucleus jars under the lib directory and hive-site.xml under conf/ directory need to be available on the driver and all executors launched by the YARN cluster.)

启动
./bin/spark-shell --jars /appl/hive-1.2.1/lib/mysql-connector-java-5.1.30-bin.jar

测试
import org.apache.spark.sql.SQLContext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.sql("create table if not exists test1 (id int, name string)")
sqlContext.sql("load data local inpath '/mk/test/test1.txt' into table test1")
sqlContext.sql("FROM test1 SELECT id, name").collect().foreach(println)
val df = sqlContext.sql("SELECT * FROM test1")
df.show


参考
https://www.iteblog.com/archives/1491
http://www.mamicode.com/info-detail-395201.html
http://spark.apache.org/docs/1.6.2/sql-programming-guide.html#hive-tables
http://www.itnose.net/detail/6513344.html
http://www.cnblogs.com/shishanyuan/p/4701656.html
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

总结:Hive,Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我...

Hive on Spark 配置、运行

一、Spark上运行Hive的配置 如下的配置文件 都是在Spark目录中配置 1)/usr/local/spark/conf/hive-site.xml 在/usr/local/spark/conf...

Hive on Spark配置总结

Hive on spark

SparkSQL配置(HIVE作为数据源)

HIVE的配置(以mysql做为元数据的存储,hdfs作为数据的存储): 1.修改 hive-env.sh  (可以从hive-default.xml.template拷贝修改) #hadoop的...

基于Spark 2.0.0搭建Hive on Spark环境

如何让HIVE 2.2.0使用Spark 2.0.0计算框架。
  • Jsin31
  • Jsin31
  • 2017-04-06 09:31
  • 1890

Spark读写Hive

环境:CDH5.8,Spark:1.6.0;Hadoop:2.6.0,Intellij IDEA14 ,jdk1.8,sdk:2.10.6 ,maven:3.3.3;工程下载地址:1. Spark读取...

Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点, 机器配置: 2台32core,内存14...

spark 2.0.0与HIVE结合的测试

spark 2.0.0中,对hive的结合开发是否进行了改变,于是进行了如下测试。 最大的变化就是没有什么HiveContext了。直接就是一个SparkSession。 val spar...

spark2.0操作hive

用spark直接操作hive方式,完成之前的流量分析统计。 spark+hive的作用: 1,hive是企业里面离线分析的数据源,hive作为数据源进行rdd加工操作,比如做一些算法类。 2,为...

查看Ambari自动配置的hive与spark sql元数据库

先找下spark配置文件在哪[root@ws1dn3 ~]# whereis spark spark: /etc/spark [root@ws1dn3 ~]# cd /etc/spark/ [root...
  • Dr_Guo
  • Dr_Guo
  • 2016-10-13 15:29
  • 1614
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)