hive on spark

最新推荐文章于 2023-08-02 15:03:28 发布

Running_Tiger

最新推荐文章于 2023-08-02 15:03:28 发布

阅读量375

点赞数 1

分类专栏： Spark Streaming 文章标签： Spark Streaming

本文链接：https://blog.csdn.net/qq_41455420/article/details/79520208

版权

Spark Streaming 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

hive on spark

1.下载apache-hive-2.0.0-bin.tar.gz

注意：尽量安装和hive版本的spark
版本的查看可以通过查看当前源码下的pom.xml文件，看其他对应的应用版本

2.下载安装maven工具

下载地址：http://maven.apache.org/download.cgi
配置环境变量

3.安装对应版本的scala

hive-2.0.0对应版本的spark版本为
<spark.version>1.5.0</spark.version>
spark-1.5.0对应的scala版本为
<scala.version>2.10.4</scala.version>

4.编译spark

注意:编译spark选择不带hive的
将下载好的spark源码解压spark-1.5.0.tgz.解压完成后进入到目录。
执行命令：

./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provide

详细见：
参考资料:
spark源码下载官方地址:
http://spark.apache.org/downloads.html

spark源码编译官方指南:
http://spark.apache.org/docs/1.5.0/building-spark.html

spark源码编译教程:
http://blog.csdn.net/yanran1991326/article/details/46506595

Hive On Spark遇坑指南:
http://www.cnblogs.com/linbingdong/p/5806329.html

5.配置

将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下。
在hive-site.xml 添加如下配置

            <!--修改hive的执行引擎为spark-->
            <property>
                    <name>hive.execution.engine</name>
                    <value>spark</value>
            </property>

                <!--在hdfs上hive数据存放目录，启动hadoop后需要在hdfs上手动创建 -->
            <property> 
                <name>hive.metastore.schema.verification</name> 
                <value>false</value>     
            </property>

                 <!--默认 metastore 在本地，添加配置改为非本地-->
            <property>
                 <name>hive.metastore.local</name>
                 <value>false</value>
            </property>-->

                <!--记录 Spark事件,用于应用程序在完成后重构 webUI-->
            <property>
                <name>spark.eventLog.enabled</name>
                <value>true</value>
            </property>

                <!—hdfs目录存在-->
            <property>
                <name>spark.eventLog.dir</name>
                <value>hdfs:///hive_on_sparklogs</value>
            </property>

                <!--每个executor的内存大小-->
            <property>
                <name>spark.executor.memory</name>
                <value>512m</value>
            </property>

                <!--序列化对象-->
            <property>
                <name>spark.serializer</name>
                <value>org.apache.spark.serializer.KryoSerializer</value>
            </property>

                <!-- 先上传spark-assembly-1.6.1-hadoop2.6.0.jar包到hdfs上，并配置,避免任务运行时不需要下载-->
            <property>
                <name>spark.yarn.jar</name>
                <value>hdfs://itcast01:9000/spark-assembly-1.6.1-hadoop2.6.0.jar</value>
            </property>