hive on spark安装

Hive on spark安装

1.      下载apache-hive-2.0.0-bin.tar.gz,安装。(尽量安装和hive相对应的版本spark和hadoop)

2.      编译spark(不带hive的)

./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

见:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

将编译后的spark下的lib下的 spark-assembly jar 拷贝到hivelib下。

3.      hive-env.sh配置:

exportHIVE_AUX_JARS_PATH=/home/hadoop/app/apache-hive-2.0.0-bin/lib

 

exportHADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.6.0

export HIVE_CONF_DIR=/home/hadoop/app/apache-hive-2.0.0-bin/conf

exportHIVE_HOME=/home/hadoop/app/apache-hive-2.0.0-bin

export JAVA_HOME=/usr/java/jdk1.7.0_79

4.      hive-site配置:

<!--在hdfs上hive数据存放目录,启动hadoop后需要在hdfs上手动创建 -->

                  <property> 

            <name>hive.metastore.schema.verification</name> 

            <value>false</value>     

         </property>

        

         <!--默认 metastore 在本地,添加配置改为非本地

         <property>

                   <name>hive.metastore.local</name>

                   <value>false</value>

         </property>-->

        

         <property>

                   <name>hive.metastore.uris</name>

                   <value>thrift://bihdp01:9083</value>

                   <description>Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.</description>

         </property>

        

        

         <property>

                   <name>hive.metastore.warehouse.dir</name>

                   <value>/hive/warehouse</value>

         </property>

         <!--通过jdbc协议连接mysql的hive库 -->

         <property>

                   <name>javax.jdo.option.ConnectionURL</name>

                   <value>jdbc:mysql://bihdp01:3306/hiveto?createDatabaseIfNotExist=true</value>

                   <description>JDBC connect string for a JDBC metastore</description>

         </property>

         <!--jdbc的mysql驱动 -->

         <property>

                   <name>javax.jdo.option.ConnectionDriverName</name>

                   <value>com.mysql.jdbc.Driver</value>

                   <description>Driver class name for a JDBC metastore</description>

         </property>

         <!--mysql用户名 -->

         <property>

                   <name>javax.jdo.option.ConnectionUserName</name>

                   <value>root</value>

                   <description>username to use against metastore database</description>

         </property>

         <!--mysql用户密码 -->

         <property>

                   <name>javax.jdo.option.ConnectionPassword</name>

                   <value>*********</value>

                   <description>password to use against metastore database</description>

         </property>

        

        

        

        

         <!-- 设置为false,查询将以运行hiveserver2进程的用户运行-->

        

         <property>

                   <name>hive.server2.enable.doAs</name>

                   <value>ture</value>

         </property>

         <property>

                   <name>hive.server2.thrift.bind.host</name>

                   <value>bihdp01</value>

         </property>

         <property>

                   <name>hive.server2.thrift.port</name>

                   <value>10000</value>

         </property>

        

        

         <property>

                   <name>hive.exec.parallel</name>

                   <value>true</value>

         </property>

         <property>

                   <name>hive.exec.dynamic.partition.mode</name>

                   <value>strict</value>

         </property>

         <property>

                   <name>hive.exec.compress.intermediate</name>

                   <value>true</value>

         </property>

         <!-- 配置hive 的web 页面访问的接口hwi , 主机 端口  war包的路径-->

         <property>

    <name>hive.hwi.listen.host</name>

    <value>bihdp01</value>

  </property>

 

  <property>

    <name>hive.hwi.listen.port</name>

    <value>9999</value>

  </property>

  <property>

    <name>hive.hwi.war.file</name>

    <value>lib/hive-hwi-1.2.1.war</value>

  </property>

 

 

 

 

<property>

<name>spark.eventLog.enabled</name>

<value>true</value>

</property>

<!—hdfs目录存在-->

<property>

<name>spark.eventLog.dir</name>

<value>hdfs:///hive_on_sparklogs</value>

</property>

 

<property>

<name>spark.executor.memory</name>

<value>512m</value>

</property>

 

<property>

<name>spark.serializer</name>

<value>org.apache.spark.serializer.KryoSerializer</value>

</property>

</configuration>

5.      启动hive

sethive.execution.engine=spark;

set spark.master=yarn-cluster;(目前只有这个测试有效)

(也可以配置在hive-site.xml中)

 

 

遇到问题:http://91r.net/ask/31228420.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hive on Spark 是一种运行 Apache Hive 查询的方式,使用 Apache Spark 作为后端执行引擎。这种方式可以提高 Hive 的查询效率,并带来更好的性能和扩展性。它同时保留了 Hive 的简单易用性,因此对于需要处理大数据集的用户来说是一个不错的选择。 ### 回答2: Hive on Spark是一种基于Spark引擎的大数据处理工具。Hive是一个开源的数据仓库基础架构,它可以让用户通过类似SQL的查询语言HiveQL来处理大规模数据。而Spark是一种快速、通用的大数据处理引擎,可以在内存中进行数据计算,提供了丰富的API和工具。 Hive on Spark的优势在于,它将HiveSpark的强大功能相结合,提供了更高效、更灵活的数据处理和分析能力。具体而言,Hive on Spark可以利用Spark的内存计算和并行处理能力,加快数据查询和分析速度,提高性能。同时,Hive on Spark支持多种数据源,包括Hadoop HDFS、Hive和其他Hive支持的数据格式,使得数据的读取和转换更加方便。 除此之外,Hive on Spark还提供了更多的数据处理功能,如交互式查询、流式处理、机器学习和图计算等。通过与Spark生态系统的整合,用户可以利用Spark的机器学习库MLlib进行数据挖掘和建模,使用Spark的图计算库GraphX分析大规模图数据,以及使用Spark Streaming进行实时数据处理。这为用户提供了更多的选择和灵活性,满足不同场景下的数据处理需求。 总之,Hive on Spark是一种强大的大数据处理工具,结合了Hive的数据仓库架构和Spark的计算引擎,提供了高效、灵活的数据处理和分析能力。它可以加速查询速度、提高性能,同时支持多种数据源和更多的数据处理功能,满足不同应用场景下的大数据需求。 ### 回答3: Hive on Spark是一种在Apache Hadoop生态系统中运行的开源分布式处理框架。它结合了Apache Hive和Apache Spark的功能,提供了更高效的数据查询和分析。 Hive是一种基于Hadoop的数据仓库基础设施,允许用户通过Hive查询语言(HiveQL)从大规模数据集中进行数据查询和分析。然而,Hive在处理大规模数据时存在一些性能瓶颈。为了解决这个问题,引入了Hive on SparkSpark是一个快速的、通用的数据处理框架,具有高效的内存计算能力和分布式数据处理功能。通过将HiveSpark集成,Hive on Spark可以利用Spark的内存计算和分布式处理能力来改善数据查询的执行性能。 Hive on Spark的好处包括: 1. 更快的查询速度:由于Spark的高效计算引擎,Hive on Spark可以显著提高查询的执行速度。相比传统的基于MapReduce的Hive查询,Hive on Spark可以提供更快的响应时间。 2. 更好的资源管理:Spark具有自己的资源管理器,可以更好地管理计算资源,实现更好的资源利用和调度。这使得Hive on Spark能够更好地处理大规模数据集,实现更高效的查询处理。 3. 更丰富的功能支持:Spark提供了许多高级功能,如机器学习、实时流处理和图处理等。通过将HiveSpark集成,Hive on Spark可以从这些功能中受益,并扩展其查询和分析的能力。 总之,Hive on Spark是一个强大的工具,它在提供高性能数据查询和分析能力的同时,还融合了HiveSpark的优势。对于需要处理大规模数据集的企业和组织来说,Hive on Spark是一个值得考虑的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值