如何使用zeppelin实现大数据可视化

chenfangfang_2015

于 2016-05-25 15:28:35 发布

阅读量9.6k

点赞数 2

文章标签： spark数据可视化 zeppelin

本文链接：https://blog.csdn.net/lulynn/article/details/51498616

版权

Zeppelin是一个基于Spark的数据可视化平台，支持Scala并允许在单一视图中展示不同数据源。通过设置Interpreter，可以扩展对MySQL等数据源的支持。本文介绍了如何在Zeppelin Notebook中加载MySQL和Hive数据，并进行混合查询。示例展示了如何在Scala中编写代码，通过下拉框选择数据源，并使用SQL查询创建临时表，最后以表格形式展示结果。

摘要由CSDN通过智能技术生成

Zeppelin是基于spark的数据可视化方案。支持scala语言，任何在spark上运行的job都可以在此平台上运行，此外支持对表数据的可视化。对数据源的可视化可以通过interpreter进行扩展，比如github中就有支持mysql的interpreter。

下面着重介绍zeppelin notebook中代码书写：

scala：使用此interpreter的好处是，可以将各个数据源的数据在同一张视图中进行展示。比如以下是对mysql，hive数据的混合展示：

Load mysql表，并注册为spark sqlContext同样的表名：

import java.util.Properties
val properties = new Properties()
val url = "..."
properties.put("user", "...")
properties.put("password", "...")
properties.put("driver", "com.mysql.jdbc.Driver")
val tables = "...,..."
tables.split(",").foreach{mysql_table =>
sqlContext.read.jdbc(url, mysql_table, properties).registerTempTable(mysql_table)
}

Hive数据可以直接进行load：

sql(s"""
SELECT
...<