cdh5.7.4hive配置

1.1  添加hive服务

 

将hive服务都安装到hadoop-manager2上(列表所示)

并在所有机器上存放mysql驱动,存放位置

    /opt/cloudera/parcels/CDH/lib/hive/lib

 

选择hadoop-manager1上的mysql

选择默认路径

 

 

 

 

 

 

 

1.2   impala

 

1.3  hive的配置

 

 

<property>

<name>yarn.nodemanager.aux-services</name>

<value>spark_shuffle,mapreduce_shuffle</value>

</property>

 

<property>

<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>

<value>org.apache.spark.network.yarn.YarnShuffleService</value>

</property>

 

<property>

 <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

 <value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

 

1.4  Hive的基本操作

 

1)在hive安装集群中输入一下命令,登入hive客户端

         hive

2)打开hive.txt,并将建表命令拷贝在客户端执行

3)将hive_add_partition.sh拷贝到/opt/data-platform/bin

4)在 /opt/data-platform/sbin/jobs_day.sh 文件中添加如下命令

 

#添加partition

sh/opt/data-platform/bin/hive_add_partition.sh >  /opt/data-platform/log/hive_add_partition.log2>&1

 

hive.txt

 

drop table if exists call_logs;

CREATE external TABLE call_logs (

accesscode string,

province string,

region string,

domain string,

frontid string,

callingnumber string,

oricallednumber string,

callednumber string,

starttime string,

answertime string,

keypresstime string,

endtime string,

keypressduration string,

keynumber string,

callduration string,

callingareanum string,

oricalledareanum string,

calledareanum string,

calltype string,

barringtype string,

trunkid string,

localcode string,

destcode string,

listtype string,

category string,

auditresult string,

auditstutas string,

recordfileid string,

recordpath string,

recordstarttime string,

recordendtime string,

ismonitoring string,

direction string,

answerendtiome string,

calllenth string,

notinterceptreason string,

ishide string,

templet_no string,

policyid string

) partitioned BY(stat_date STRING)

ROW format delimited FIELDS TERMINATED BY '|';

 

hive_add_partition.sh

#!/bin/bash

source /etc/profile

if [ $# -eq 1 ]; then

         target_day=$1

else

         target_day=`date-d "-0 days" +"%Y%m%d"`

fi

 

hive -e "alter table call_logs addpartition (stat_date ='${target_day}') location'/user/callLog/stat_date=${target_day}'"

### 回答1: CDH(Cloudera's Distribution for Hadoop)是Cloudera公司针对Hadoop生态系统进行的一系列软件包和工具的集成,其包括Hive on Spark的配置Hive是一个建立在Hadoop之上的数据仓库基础架构,它提供了类似于SQL的查询语言HiveQL,方便用户使用SQL语言对存储在Hadoop的大型数据集进行查询和分析。Spark是一个快速、通用的数据处理引擎,具有内存计算的特性,能在内存高效地处理大规模数据。 在CDH配置Hive on Spark需要进行以下步骤: 1. 确保CDH集群已经正确安装和配置,并且已经启动了Hive服务和Spark服务。 2. 在CDH管理界面,选择Hive服务,然后点击“配置”选项卡。 3. 在配置页面,找到“Hive 服务”下的“Ancillary Service Configuration”部分。在“Spark”部分,填写正确的Spark主节点地址和端口号。 4. 点击“保存并重启”以应用配置更改。 5. 在CDH管理界面,选择Spark服务,然后点击“配置”选项卡。 6. 在配置页面,找到“Spark 特定”的部分。在“Spark 实例模式”选择“Standalone”,表示将使用独立的Spark集群。 7. 在“Spark 主节点地址”填写正确的Spark主节点的地址。 8. 点击“保存并重启”以应用配置更改。 9. 配置完成后,可以使用HiveQL语句在Hive使用Spark进行查询和分析数据。在Hive命令行或Hue界面,编写需要的查询语句并执行。 通过以上步骤,就可以在CDH上成功配置Hive on Spark。这样就可以同时利用Hive和Spark的强大功能,实现对大规模数据的高效分析和处理。 ### 回答2: CDH配置Hive on Spark是指在CDH平台上配置使用Spark作为Hive的计算引擎。下面是具体的步骤: 1. 首先,确保已经在CDH平台上安装了Hive和Spark组件。 2. 在Hive配置文件,需要添加以下参数来启用Hive on Spark: hive.execution.engine = spark hive.spark.client.connect.timeout = 300s hive.spark.client.server.connect.timeout = 300s 3. 在Spark的配置文件,需要增加以下参数来支持Hive on Spark: spark.master = yarn-client spark.deploy.mode = client spark.submit.deployMode = client spark.yarn.queue = default spark.executor.instances = 10 spark.executor.memory = 4G spark.executor.cores = 2 spark.driver.memory = 4G 4. 然后,重启Hive和Spark的服务。 5. 运行Hive脚本或者Hive命令时,可以在Hive使用"hive.execution.engine=spark"设置为Spark引擎,或者在命令行使用"--engine=spark"参数。 配置完成后,Hive会将相应的作业提交给Spark来执行,利用Spark的分布式计算能力加速Hive查询的执行速度。需要注意的是,配置Hive on Spark需要确保CDH平台Hive和Spark是兼容的,并且调整Spark的资源配置以满足计算需求。 总之,通过CDH配置Hive on Spark可以充分发挥Spark的并行处理能力,提高Hive查询的执行效率和性能。 ### 回答3: CDH是一种大数据解决方案,用于配置Hive on Spark的步骤如下: 1. 首先,确保已安装CDH集群并启动了Hive和Spark组件。如果还没有安装,请按照CDH文档进行安装和配置。 2. 检查Hive和Spark的版本兼容性。Hive on Spark需要Hive和Spark版本之间的兼容性,查看CDH文档以了解哪些版本适用于您的集群。 3. 在Hive配置文件启用Hive的Spark支持。打开Hive配置文件(hive-site.xml),设置hive.execution.engine为spark。 4. 配置Spark属性。在Spark配置文件(spark-defaults.conf),设置spark.master为yarn-client或yarn-cluster,这取决于您的CDH集群配置。还可以通过设置其他属性来优化Spark执行引擎的性能。 5. 启动Hive服务。重启Hive服务以使配置更改生效。您可以使用以下命令重新启动Hive服务: sudo service hive-server2 restart 6. 测试Hive on Spark。使用Hive命令行或其他Hive客户端,运行一些Hive查询并确认它们是否在Spark上执行。 配置Hive on Spark可以提供更好的性能和资源利用率。而且,使用Spark作为执行引擎还可以充分利用Spark提供的丰富的数据处理功能和API。通过使用CDHHive on Spark配置,您可以更好地处理和分析大规模的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值