Spark交互式分析平台Apache Zeppelin的安装

最新推荐文章于 2024-08-22 16:41:57 发布

原创

最新推荐文章于 2024-08-22 16:41:57 发布 · 2.1w 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#zeppelin

Apache Zeppelin是一款提供web界面的数据分析和可视化平台，支持Spark、Hive等多种数据处理引擎。本文详述了Zeppelin的安装部署过程，包括删除zeppelin-web项目pom.xml的特定内容，手动配置npm和node，以及编译其他项目。同时，文章还介绍了如何配置和启动Zeppelin，以实现数据的交互式分析和协作。

Zeppelin介绍

Apache Zeppelin提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括spark, hive, tajo等，原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的，就是来自于当时的demo。

Zeppelin可实现你所需要的：
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作

支持多种语言，默认是scala(背后是spark shell)，SparkSQL, Markdown 和 Shell。

甚至可以添加自己的语言支持。如何写一个zeppelin解释器

Zeppelin特性

Apache Spark 集成

Zeppelin 提供了内置的 Apache Spark 集成。你不需要单独构建一个模块、插件或者库。
Zeppelin的Spark集成提供了：
- 自动引入SparkContext 和 SQLContext
- 从本地文件系统或maven库载入运行时依赖的jar包。更多关于依赖载入器
- 可取消job 和展示job进度