Apache Zeppelin数据分析从入门到精通
系统讲解Zeppelin的基础、组件配置和使用、可视化、数据分析案例和源码分析。
机器熊技术大杂烩
欢迎访问机器熊的技术大杂烩,专注Java技术。
展开
-
可视化分析工具Apache Zeppelin:数据分析从未这样简单
基础篇基本介绍:可视化交互式数据分析工具Apache ZeppelinLinux平台安装部署Windows平台安装部署快速入门主要界面和基本操作组件配置和使用 Zeppelin组件配置和使用:使用JDBC连接Mysql Zeppelin组件配置和使用:使用JDBC连接Hive Zeppelin组件配置和使用:使用JDBC连接Phoenix Zeppelin组件配置和使用...原创 2019-05-05 08:53:36 · 2816 阅读 · 1 评论 -
可视化交互式数据分析工具Apache Zeppelin
1. 什么是Apache Zeppelin在正式进入Apache Zeppelin的正题之前,我们必须先了解两个概念。REPLREPL全称是Read Evaluate Print Loop,交互式解释器环境,通过交互式界面接收用户输入,交互式解释器读取输入内容并对它求值,返回结果,并重复此过程。Jupyter NotebookJupyter Notebook(早期叫IPython not...原创 2019-04-14 15:16:03 · 3038 阅读 · 0 评论 -
Zeppelin组件配置和使用:连接Spark
Spark的核心分析栈包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX等,面向批处理、流处理、图计算、机器学习等场景,实现了生态融合统一,基于相同的数据结构,可实现不同类型的计算任务。Zeppelin针对spark提供了强大的语言解释器,常见的解释器包括:%spark 运行scala代码,发送至Spark Core引擎执行%sql ...原创 2019-05-02 14:08:00 · 3718 阅读 · 0 评论 -
Zeppelin组件配置和使用:连接R
Zeppelin没有独立的R语言解释器,要操作R必须通过Spark解释器,在Zeppelin中输入的R语言代码发送给SparkR进行执行后返回结果,本文介绍如何在Zeppelin中执行R语言。环境及版本信息操作系统:CentOS 7.2Zeppelin: 0.8.1R: 3.5.1Spark: 2.3.2如果系统没有安装R,请参考以下文章:Linux安装R:yum安装配置sp...原创 2019-05-02 13:00:33 · 972 阅读 · 0 评论 -
数据分析案例1:Zeppelin+Hive分析MovieLens电影数据集
本文使用Zeppelin和Hive对MovieLens电影数据集进行分析,包括电影流行度分析、口碑分析等。Zeppelin连接Hive请参考:Zeppelin组件配置和使用:使用JDBC连接HiveMovieLens数据集介绍请参考:MovieLens数据集(电影推荐、Hive、Spark SQL)数据集介绍本文选择MovieLens小数据集ml-1m包含100万评分数据集,下载地址...原创 2019-04-28 20:15:19 · 4300 阅读 · 0 评论 -
Zeppelin组件配置和使用:使用JDBC连接Hive
Zeppelin使用JDBC方式提供对hive组件的支持,本文介绍如何在Zeppelin中配置hive的解释器。版本信息JDK:1.8Zeppelin: 0.8.1Hive: 2.3.4Hadoop: 2.7.3前提条件要在Zeppelin中使用hive,以下服务必须启动:hiveserver2配置hive解释器新建一个继承自jdbc的解释器,命名为hive,如图所示。...原创 2019-04-28 16:51:43 · 2524 阅读 · 1 评论 -
Zeppelin可视化:使用heatmap插件实现数据的热力图展示
本文介绍如何使用Zeppelin的heatmap插件实现数据的热力图展示,包括开启插件、数据准备和数据热力图展示等部分。在helium配置中开启ultimate-heatmap-chart插件Zeppelin的helium可视化库中的ultimate-heatmap-chart插件可提供基于笛卡尔坐标系上的热力图展示,数据格式要求为((x,y),z),即纵横坐标唯一确定一个值。通过helium...原创 2019-04-18 11:39:38 · 1607 阅读 · 0 评论 -
Apache Zeppelin主要界面和基本操作
本文针对的Zeppelin版本为0.8.1。1. 首页功能用户登录后Zeppelin首页如图所示,主要包括顶部导航栏、Notebook列表,具体菜单对应的功能如下。1 导入Notebook从文件导入一个Notebook应用。2 创建Notebook创建新的Notebook应用,创建时可指定应用名称和默认代码解释器。3 按名称筛选Notebook4 Notebook列...原创 2019-04-15 19:44:12 · 5648 阅读 · 0 评论 -
Zeppelin可视化:使用leaflet插件实现数据的地图可视化展示
数据的地图可视化展示虽然Zeppelin针对结构化数据默认提供了表格、直方图、饼图、区域图、折线图和散点图共6种可视化方式,但我们通过Zeppelin提供的helium插件功能可以集成更多可视化形式,helium通过npm方式安装插件,此功能必须要连接互联网,系统会从接口获取所有可用的插件。常用的可视化插件基于highcharts的可视化插件ultimate-heatmap-chart ...原创 2019-04-17 16:01:20 · 2376 阅读 · 0 评论 -
Windows安装部署Apache Zeppelin
Zeppelin具有很好的平台适应性,既可以部署在Linux上,多用于企业生产环境,也可以部署在Windows上,多用于学习研究。Windows上部署Zeppelin具有启停快速、联网方便等特点,本文介绍如何在Windows系统上部署Zeppelin,对可能遇到的问题进行原因分析并提供解决思路。环境版本信息操作系统:Windows 7JDK:1.8 openjdk或oracle jdk均...原创 2019-04-17 12:30:05 · 3584 阅读 · 0 评论 -
Zeppelin组件配置和使用:连接Elasticsearch
本文介绍Zeppelin如何配置elasticsearch解释器以支持对文档的获取、创建、删除、检索操作。Elasticsearch简介Elasticsearch是一个基于Apache Lucene内核、使用Java开发、用于实现索引和搜索的功能的开源搜索引擎,通过标准的RESTful API覆盖Lucene的复杂性,以期全文检索技术能简单易用地被各种搜索应用所使用。Elasticsearch...原创 2019-04-16 19:34:35 · 1263 阅读 · 0 评论 -
Zeppelin组件配置和使用:使用JDBC连接Mysql
本文介绍Zeppelin如何配置JDBC解释器以支持Mysql数据库的CRUD操作。本文针对的Zeppelin版本为0.8.1。Zeppelin对JDBC的支持Zeppelin通过JDBC支持对PostgreSQL、Mysql、Mariadb、Apache Drill、Amazon Redshift、Apache Tajo等数据库的操作,Zeppelin默认支持的数据库为PostgreS...原创 2019-04-16 11:47:51 · 2274 阅读 · 0 评论 -
Apache Zeppelin快速入门
说明:本文基于Zeppelin 0.8.1版本Zeppelin快速体验新建一个Notebook应用进入Zeppelin主界面,点击Create new note按钮,创建一个新的Notebook应用,命名为/分析集1/分析案例1,并为应用指定解释器为python。说明:如果要实现应用的分层管理,可以使用/分析集1/.../分析案例1的形式,定义多层目录。在创建应用时指定的解释器...原创 2019-04-15 16:44:09 · 942 阅读 · 0 评论 -
Apache Zeppelin安装部署
1. 安装环境操作系统:Linux CentOS 7.2JDK:1.8 openjdk或oracle jdk均可内存:4G2. 下载0.8.1版本的安装包安装包下载地址https://archive.apache.org/dist/zeppelin/zeppelin-0.8.1/zeppelin-0.8.1-bin-all.tgz上传安装包并解压使用远程传输工具将安装包zepp...原创 2019-04-14 17:21:55 · 1932 阅读 · 0 评论 -
Apache Zeppelin源码结构分析
本文针对Zeppelin版本:v0.8.1Github地址 https://github.com/apache/zeppelinZeppelin主体由Java开发,使用Maven作为构建工具,语言组成如图所示:其中,核心的Server、Zengine、Interpreter、Jupyter模块都由Java语言编写,Zeppelin Web模块使用AngularJS框架以及基础的js、c...原创 2019-04-14 16:33:40 · 784 阅读 · 0 评论