zeppelin on CDH及配置spark查询hive表

最新推荐文章于 2024-07-06 03:39:42 发布

weixin_33727510

最新推荐文章于 2024-07-06 03:39:42 发布

阅读量2k

点赞数

文章标签：大数据 scala 开发工具

原文链接：https://my.oschina.net/hblt147/blog/3010519

版权

2019独角兽企业重金招聘Python工程师标准>>>

1.下载zeppelin

http://zeppelin.apache.org/download.html

我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。

2.修改配置文件

cd /zeppelin-0.7.3-bin-all/conf

cp zeppelin-env.sh.template zeppelin-env.sh

cp zeppelin-site.xml.template zeppelin-site.xml

vim zeppelin-env.sh

添加配置如下：我的是spark2用不了spark1.6版本这个版本的zeppelin

export HIVE_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hive
export JAVA_HOME=/usr/java/jdk1.8.0_121
export MASTER=yarn-client
export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.yarn.jar=/home/zeppelin-0.7.3-bin-all/interpreter/spark/zeppelin-spark_2.11-0.7.3.jar"
export DEFAULT_HADOOP_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hadoop
export SPARK_HOME=/data/parcels/cloudera/parcels/SPARK2/lib/spark2
#export SPARK_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/spark
export HADOOP_HOME=${HADOOP_HOME:-$DEFAULT_HADOOP_HOME}
if [ -n "$HADOOP_HOME" ]; then
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:${HADOOP_HOME}/lib/native
fi
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/etc/hadoop/conf}

export ZEPPELIN_LOG_DIR=/var/log/zeppelin
export ZEPPELIN_PID_DIR=/var/run/zeppelin
export ZEPPELIN_WAR_TEMPDIR=/var/tmp/zeppelin

3.配置这些其实已经足够了。

在启动

./zeppelin-daemon.sh start

4.在界面上配置就可以使用了hive的配置这个

添加依赖：

这些就可以查询hive了

5.用spark读取hive表这个比直接查询hive表快十倍

我把hive的配置文件hive-site.xml拷贝到hadoop_home/conf

添加需要的依赖

%dep
z.load("org.apache.hive:hive-jdbc:0.14.0")
z.load("org.apache.hadoop:hadoop-common:2.6.0")
z.load("/home/gl/hive-hcatalog-core-1.1.0-cdh5.9.0.jar")

%spark
import java.util.Properties
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf

val sparkConf = new SparkConf().setAppName("hive")
val spark = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

val connectionProperties = new Properties()
connectionProperties.put("user", "")
connectionProperties.put("password", "")
connectionProperties.put("driver", "org.apache.hive.jdbc.HiveDriver")
val jdbcDF2 = spark.read
  .jdbc("jdbc:hive2://*******:****/test", "bbb", connectionProperties)//.createTempView("bbb")

   spark.sql("select count(*) from pc_db.pc_txt group by responseset").show()

.修改登陆zeeplin验证方式
禁止匿名访问

Zeppelin启动默认是匿名（anonymous）模式登录的．如果设置访问登录权限，需要设置conf/zeppelin-site.xml文件下的zeppelin.anonymous.allowed选项为false（默认为true）．如果你还没有这个文件，只需将conf/zeppelin-site.xml.template复制为conf/zeppelin-site.xml

<property>
<name>zeppelin.anonymous.allowed</name>
<value>false</value>
<description>Anonymous user allowed by default</description>
</property>
a)开启Shiro

在刚安装完毕之后，默认情况下，在conf中，将找到shiro.ini.template，该文件是一个配置示例，建议你通过执行如下命令行创建shiro.ini文件:

cp conf/shiro.ini.template conf/shiro.ini
[users]
#admin = password1, admin
#user1 = password2, role1, role2
#user2 = password3, role3
#user3 = password4, role2

hadoop = hadoop, admin # 用户名、密码都是hadoop，角色为admin
bin/zeppelin-daemon.sh restart

2.How to do

　　首先，我们来了解一下这款工具的背景及用途。Zeppelin 目前已托管于 Apache 基金会，但并未列为顶级项目，可以在其公布的官网访问。它提供了一个非常友好的 WebUI 界面，操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink，Spark，Hive 等。支持原生的 Scala，Shell，Markdown 等。

2.1 Install

　　对于 Zeppelin 而言，并不依赖 Hadoop 集群环境，我们可以部署到单独的节点上进行使用。首先我们使用以下地址获取安装包：

http://zeppelin.incubator.apache.org/download.html

　　这里，有2种选择，其一，可以下载原文件，自行编译安装。其二，直接下载二进制文件进行安装。这里，为了方便，笔者直接使用二进制文件进行安装使用。这里有些参数需要进行配置，为了保证系统正常启动，确保的 zeppelin.server.port 属性的端口不被占用，默认是8080，其他属性大家可按需配置即可。［配置链接］

2.2 Start/Stop

　　在完成上述步骤后，启动对应的进程。定位到 Zeppelin 安装目录的bin文件夹下，使用以下命令启动进程：

./zeppelin-daemon.sh start

　　若需要停止，可以使用以下命令停止进程：

./zeppelin-daemon.sh stop

　　另外，通过阅读 zeppelin-daemon.sh 脚本的内容，可以发现，我们还可以使用相关重启，查看状态等命令。内容如下：

复制代码

case "${1}" in
  start)
    start
    ;;
  stop)
    stop
    ;;
  reload)
    stop
    start
    ;;
  restart)
    stop
    start
    ;;
  status)
    find_zeppelin_process
    ;;
  *)
    echo ${USAGE}

复制代码

3.How to use

　　在启动相关进程后，可以使用以下地址在浏览器中访问：

http://<Your_<IP/Host>:Port>

　　启动之后的界面如下所示：

　　该界面罗列出插件绑定项。如图中的 spark，md，sh 等。那我如何使用这些来完成一些工作。在使用一些数据引擎时，如 Flink，Spark，Hive 等，是需要配置对应的连接信息的。在 Interpreter 栏处进行配置。这里给大家列举一些配置示例：

3.1 Flink

　　可以找到 Flink 的配置项，如下图所示：

　　然后指定对应的 IP 和地址即可。

3.2 Hive

　　这里 Hive 配置需要指向其 Thrift 服务地址，如下图所示：

　　另外，其他的插件，如 Spark，Kylin，phoenix等配置类似，配置完成后，记得点击 “restart” 按钮。

3.3 Use md and sh

　　下面，我们可以创建一个 Notebook 来使用，我们拿最简单的 Shell 和 Markdown 来演示，如下图所示：

3.4 SQL

　　当然，我们的目的并不是仅仅使用 Shell 和 Markdown，我们需要能够使用 SQL 来获取我们想要的结果。

3.4.1 Spark SQL

　　下面，我们使用 Spark SQL 去获取想要的结果。如下图所示：

　　这里，可以将结果以不同的形式来可视化，量化，趋势，一目了然。

3.4.2 Hive SQL

　　另外，可以使用动态格式来查询分区数据，以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式进行表示。如下图所示：

3.5 Video Guide

　　另外，官方也给出了一个快速指导的入门视频，观看地址：[入口]

4.总结

　　在使用的过程当中，有些地方需要注意，必须在编写 Hive SQL 时，%hql 需要替换为 %hive.sql 的格式；另外，在运行 Scala 代码时，如果出现以下异常，如下图所示：

　　解决方案，在 zeppelin-env.sh 文件中添加以下内容：

export ZEPPELIN_MEM=-Xmx4g

　　该 BUG 在 0.5.6 版本得到修复，参考码：［ZEPPELIN-305］

五、Hue、Zeppelin比较
上一节简单介绍了Hue这种Hadoop生态圈的数据可视化组件，本节讨论另一种类似的产品——Zeppelin。首先介绍一下Zeppelin，然后说明其安装的详细步骤，之后演示如何在Zeppelin中添加MySQL翻译器，最后从功能、架构、使用场景几方面将Hue和Zeppelin做一个比较。
1. Zeppelin简介
Zeppelin是一个基于Web的软件，用于交互式地数据分析。一开始是Apache软件基金会的孵化项目，2016年5月正式成为一个顶级项目（Top-Level Project，TLP）。Zeppelin描述自己是一个可以进行数据摄取、数据发现、数据分析、数据可视化的笔记本，用以帮助开发者、数据科学家以及相关用户更有效地处理数据，而不必使用复杂的命令行，也不必关心集群的实现细节。Zeppelin的架构图如下所示。

从图中可以看到，Zeppelin具有客户端/服务器架构，客户端一般就是指浏览器。服务器接收客户端的请求，并将请求通过Thrift协议发送给翻译器组。翻译器组物理表现为JVM进程，负责实际处理客户端的请求并与服务器进行通信。
翻译器是一个插件式的体系结构，允许任何语言/后端数据处理程序以插件的形式添加到Zeppelin中。特别需要指出的是，Zeppelin内建Spark翻译器，因此不需要构建单独的模块、插件或库。Spark翻译器的架构图如下所示。

        当前的Zeppelin已经支持很多翻译器，如Zeppelin 0.6.0版本自带的翻译器有alluxio、cassandra、file、hbase、ignite、kylin、md、phoenix、sh、tajo、angular、elasticsearch、flink、hive、jdbc、lens、psql、spark等18种之多。插件式架构允许用户在Zeppelin中使用自己熟悉的特定程序语言或数据处理方式。例如，通过使用%spark翻译器，可以在Zeppelin中使用Scala语言代码。
        在数据可视化方面，Zeppelin已经包含一些基本的图表，如柱状图、饼图、线形图、散点图等，任何后端语言的输出都可以被图形化表示。
        用户建立的每一个查询叫做一个note，note的URL在多用户间共享，Zeppelin将向所有用户实时广播note的变化。Zeppelin还提供一个只显示查询结果的URL，该页不包括任何菜单和按钮。用这种方式可以方便地将结果页作为一帧嵌入到自己的web站点中。

2. Zeppelin安装配置
下面用一个典型的使用场景——使用Zeppelin运行SparkSQL访问Hive表，在一个实验环境上说明Zeppelin的安装配置步骤。
（1）安装环境
12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如下表所示。
主机名

运行进程

nbidc-agent-03

NameNode、Spark Master

nbidc-agent-04

SecondaryNameNode

nbidc-agent-11

ResourceManager、DataNode、NodeManager、Spark Worker

nbidc-agent-12