配置spark令其支持hive

原创 2016年08月31日 11:17:04
确保scala版本
Spark1.4搭配Scala 2.10
Spark1.6搭配Scala 2.10
Spark2.0搭配Scala 2.11

查看lib
Hive需要三个jar包,分别是datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10.jar、datanucleus-rdbms-3.2.9.jar,如果已经有了就不需要重新编译了。如果需要重新编译,源码下载地址如下:https://github.com/apache/spark/releases/tag/v1.6.2

复制hive/hdfs配置文件
cd /appl/hive-1.2.1/conf
cp hive-site.xml /appl/spark-1.6.2/conf/
cd /appl/hadoop-2.7.0/etc/hadoop
cp core-site.xml /appl/spark-1.6.2/conf/
cp hdfs-site.xml /appl/spark-1.6.2/conf/

(the datanucleus jars under the lib directory and hive-site.xml under conf/ directory need to be available on the driver and all executors launched by the YARN cluster.)

启动
./bin/spark-shell --jars /appl/hive-1.2.1/lib/mysql-connector-java-5.1.30-bin.jar

测试
import org.apache.spark.sql.SQLContext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.sql("create table if not exists test1 (id int, name string)")
sqlContext.sql("load data local inpath '/mk/test/test1.txt' into table test1")
sqlContext.sql("FROM test1 SELECT id, name").collect().foreach(println)
val df = sqlContext.sql("SELECT * FROM test1")
df.show


参考
https://www.iteblog.com/archives/1491
http://www.mamicode.com/info-detail-395201.html
http://spark.apache.org/docs/1.6.2/sql-programming-guide.html#hive-tables
http://www.itnose.net/detail/6513344.html
http://www.cnblogs.com/shishanyuan/p/4701656.html

SparkSQL配置(HIVE作为数据源)

HIVE的配置(以mysql做为元数据的存储,hdfs作为数据的存储): 1.修改 hive-env.sh  (可以从hive-default.xml.template拷贝修改) #hadoop的...

Hive on Spark 配置、运行

一、Spark上运行Hive的配置 如下的配置文件 都是在Spark目录中配置 1)/usr/local/spark/conf/hive-site.xml 在/usr/local/spark/conf...
  • lotusws
  • lotusws
  • 2016年09月02日 11:48
  • 1608

Spark-sql与hive的结合环境配置

转:zx老师 ######################################## alter database hive character set latin1; ALTER TABL...

Spark SQL和Spark Thrift Server安装部署

安装Spark Spark部署 下载spark-2.2.0-bin-hadoop2.7.tgz 解压 $ tar -zxvf spark-2.2.0-bin-hadoop2.7....

Hive on Spark配置总结

Hive on spark

hive on spark入门安装(hive2.0、spark1.5)

简介 hive on hive是基于hadoop的数据仓库,hdfs为hive存储空间,mapreduce为hive的sql计算引擎。但是由于mapreduce很多计算过程都要经过硬盘读写等劣势,和s...

spark-sql部署实现与Hive交互

spark-sql部署实现与Hive交互

hive之datanucleus常见问题及解决办法

hiveserver ./hive --service start-hive ./hive --service stop-hive hive的metastore使用了datanucle...

Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点, 机器配置: 2台32core,内存14...

总结:Hive,Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:配置spark令其支持hive
举报原因:
原因补充:

(最多只允许输入30个字)