Apache Zeppelin
文章平均质量分 70
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
Apache Zeppelin 番外篇——参与开源的得与失
(6)提升自己的英文能力,很多人认为英文能力不强,不能看懂英文文档,说实话,可能前期确实有些难受,看英文文档,特别是在zeppelin的英文文档,刚开始会很不适应,但是随着看多了之后,只剩少量单词不懂,然后就去使用翻译软件来解决,能看到下面关于一个pr的沟通,前后沟通了40-50次对话,全程英文,但是理解起来其实也没有那么复杂,只有少量单词不懂的时候,会去查一下,然后就是怎么去回复别人,一般也是一些简单的对话,所以整体来说,只要上过大学,对于这种沟通,我认为是完全没有问题的。原创 2023-06-28 16:08:35 · 264 阅读 · 0 评论 -
Apache Zeppelin系列教程第十篇——SQL Debug In Zeppelin
首先介绍下什么是SQL Debug?但是经常有这样一个需求,一大段sql 跑出来之后,发现不是自己想要的结果?demo 1:union allunion allunion alldemo 2:比如说:demo 1 中的sql 出来这样的结果数据但是其中id为100的这条数据从业务逻辑上来看应该是被过滤掉的,但是实际却出来了,也就是代码实际运行结果和我们预期想的不一样。原创 2023-06-15 14:53:18 · 1414 阅读 · 8 评论 -
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
在使用Zeppelin JDBC Intercepter 对于Hive 数据进行查询过程中,如果遇到非常复杂的sql,查询效率是非常慢做过数据开发的同学都知道,在hive sql查询过程中,hive 会被转换为MapReduce,但是对于不是所有sql 都会有mapper和reducer 的过程,如果只是简单的查询不会涉及reducer,只有统计相关的查询会涉及到reducer,而其中的shuffle 和 reducer 是非常耗时如果有有这样一些sql。原创 2023-06-14 21:14:37 · 995 阅读 · 0 评论 -
Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用
LRU过期策略—最近最少使用概述:LRU 是 Least Recently Used 的缩写,即最近最少使用,是内存管理的一种页面置换算法。算法的核心是:如果一个数据在最近一段时间内没有被访问到,那么它在将来被访问的可能性也很小。换言之,当内存达到极限时,应该把内存中最久没有被访问的数据淘汰掉。那么,如何表示这个最久呢?原创 2023-06-14 10:18:43 · 261 阅读 · 0 评论 -
Apache Zeppelin系列教程第七篇——运行paragraph的整个流程分析
前文分别讲述了,JdbcInterpreter、Interpreter、Zengine的流程,本文来主要串联起来paragraph的整个流程。原创 2023-05-18 21:47:03 · 491 阅读 · 0 评论 -
Apache Zeppelin系列教程第六篇——Zengine调用Interpreter原理分析
前文介绍jdbc interpreter和interpreter模块交互代码,本篇文章主要分析Zengine调用Interpreter模块代码。介绍完这篇文章之后,我们即可将paragraph run的流程串起来(后面会将整个流程进行串讲)同样,来看下这个测试类。原创 2023-05-17 21:10:08 · 657 阅读 · 0 评论 -
Apache Zeppelin系列教程第五篇——Interpreter原理分析
其实就是web 向server 发送请求,然后调用zengine,再到interpreter,最后到实际的执行模块,比如上文中介绍的JDBCInterpreter。以JDBCInterpreter为例讲解了实际jdbc的执行过程。下面是一个整体的架构图,本篇文章重点分析下Interpreter模块,重点来看下测试类。这边简单修改了这个测试类的代码。原创 2023-05-15 14:31:10 · 492 阅读 · 0 评论 -
Apache Zeppelin系列教程第四篇——JDBCInterpreter原理分析
以jdbc-Interpreter为例,可以参考下测试代码(这个代码里面可以直接测试jdbc的sql执行过程和数据返回过程)Interpreter 其实就是整个项目的核心,代码运行都是在里面进行执行的,首先来看下Interpreter的抽象类。原创 2023-05-10 13:54:56 · 520 阅读 · 4 评论 -
Apache Zeppelin系列教程第三篇——Note的持久化管理
Note CURD分别提供http接口和websocket 接口。NotebookRepo类图。原创 2023-05-05 18:00:01 · 348 阅读 · 0 评论 -
Apache Zeppelin系列教程第二篇——整体架构
Zeppelin Server是独立的进程,进程日志在logs目录下的 zeppelin-{user}-{host}.log, 每个Interpreter也是一个独立的进程,进程日志是 logs目录下的 zeppelin-interpreter-{interpreter}-*.log, 所以如果碰到任何问题可以先去这两个log文件里去查找线索。2. 另外zeppelin的另一个亮点是其结果可视化能力,需要在前后台传递图片,并且支持较大数据量的传输的能力(相对传统http技术)。原创 2023-04-27 20:01:41 · 1364 阅读 · 0 评论 -
Apache Zeppelin系列教程第一篇——安装和使用
Apache Zeppelin是一种开源的Web笔记本类型交互式数据分析工具,它提供了基于浏览器的界面,允许数据工程师和科学家通过各种语言和工具,如Scala, Python, SQL, R,等等,交互式地进行数据分析、可视化以及分享。6. 安全性:提供了基于用户和角色的访问控制系统,可以限制对笔记本和解释器的访问,确保数据安全。1. 笔记本界面:提供了一个交互式的Web界面,用户可以轻松地编写和运行代码,查看结果,进行数据可视化,以及方便地管理和分享笔记本。配置Interpreters。原创 2023-04-27 13:31:10 · 3229 阅读 · 1 评论