dolphinscheduler
文章平均质量分 77
Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL 错综复杂的依赖关系,不能直观监控任务健康状态等问题。
韧小钊
代码界的小学生
展开
-
在Kubernetes集群中部署 dolphindcheduler-3.1.8
前面部署k8s,都是为了服务,官网也提供了k8s部署方式步骤,今天就跟着官网步骤走一遭,主要是通过helm命令,至于上面的可视化工具Kuboard也可以界面部署应用,这个后续再研究。原创 2023-09-14 22:21:28 · 491 阅读 · 2 评论 -
20230821-记海豚调度2.0最新版本(dolphinscheduler-2.0.9)和3.0最新版本( dolphinscheduler-3.1.8)的浅尝辄止
看bug修复记录也没啥印象,直接部署下,登录看看页面有没有啥变化吧?(以后有问题了,也可以先到最新版试一下,最新版没问题,说明已修复,再来定位具体代码)修复了这么多bug,看着真头疼,一开始没想着同步这些bug,不过同步也麻烦,二次开发之后,代码已经不一致了。二次开发,后面版本也没关注了,今天主要来瞻仰下最新版本长啥样。最新版本的源码包(3.0是真大!,是不是和指定worker分组比较像,具体用法,有待研究。),3.0最开始发布的时候,也做过简单了解,可参考。看这些bug修复,好像都没遇到过。原创 2023-08-21 18:00:48 · 764 阅读 · 0 评论 -
dolphinscheduler 2.0.6 资源中心改造方案二:通过NFS挂载共享目录
HDFS存储,需要搭建Hadoop集群,针对现有的单机存储可以做哪些扩展?- 指定worker:运行工作流时选择存储文件的那台worker,缺点很明显,执行资源文件必须指定worker,而且只能指定存储文件的那台worker- SFTP:详见,问题是需要开通SFTP权限,对于安全型要求比较高的系统不允许开放次权限- NFS:通过挂载共享目录,实现文件共享,本文主要据此展开原创 2023-03-27 16:28:09 · 777 阅读 · 6 评论 -
dolphinscheduler 2.0.6 资源中心改造方案一:通过SFTP下载文件
使用调度过程中,并未涉及Hadoop生态圈,但是使用资源中心功能,必须搭建Hadoop或者AWS相关环境,耗时耗力耗费资源,因此对其进行改造,将文件上传到某一台服务器,其它服务器(worker)需要该资源时通过SFTP下载到本地使用原创 2023-03-25 17:36:31 · 1571 阅读 · 1 评论 -
dolphinscheduler 3.1.4 代码编译问题记录:spotless-maven-plugin:2.23.0
[ERROR] Failed to execute goal com.diffplug.spotless:spotless-maven-plugin:2.23.0:check (default) on project dolphinscheduler: Execution default of goalcom.diffplug.spotless:spotless-maven-plugin:2.23.0:check failed: Unable to resolve dependencies: Faile原创 2023-03-25 15:42:10 · 3191 阅读 · 1 评论 -
dolphinscheduler-2.0.5 云部署记录
一般获取系统环境变量,比如Linux中声明某变量。一般从JVM获取变量,原创 2023-02-26 19:49:26 · 115 阅读 · 0 评论 -
海豚调度 dolphinscheduler-2.0.5 星环驱动包踩坑(二)worker服务正常、zk注册正常,心跳时间不更新,也不执行任务,任务一直处于执行中状态
通过jps命令、包括页面中心查看worker服务注册情况,都没有发现问题,接触调度这么久,如果报错的话,worker服务根本不会启动成功,简单看了下最新日志,也没有异常,奇了怪了!之前分享过海豚调度2.0.5连接星环库使用记录,后来说存储过程又出现了超时的情况,原因是因为调度星环驱动包和生产星环库驱动包不一致,运维人员对调度驱动包进行了升级(星环驱动包有内嵌了很多常用jar包,冲突真是家常便饭,目前通过删除jar包中的类或整个目录可以解决。后来排查其它问题时,我发现有两台服务器,上面的服务根本没启动成功。原创 2023-02-18 13:34:05 · 1208 阅读 · 1 评论 -
海豚调度 dolphinscheduler-2.0.5 参数传递SQL节点-LIST类型踩坑记录
where in 扩展占位符,比如select * from test where id in(?),假如LIST为3,则扩展为select * from test where id in(?,?,?)原创 2023-02-14 08:52:32 · 1238 阅读 · 1 评论 -
20230109-随笔 dolphinscheduler-2.0.5 存储过程补数时${system.biz.date} 不减一
前一天变量,比如今天20230109,执行时传入的是20230108;但是补数时,比如选择20230106,预期应该是20230105,实际上还是20230106。2.0.6代码已做过优化,做了空判断,直接拿过来!补数时去掉了减1操作,直接去掉。原创 2023-01-09 16:01:49 · 468 阅读 · 0 评论 -
20221225 海豚调度2.0.5 星环驱动包踩坑(一)
星环数据库连接失败星环相关任务执行失败java.lang.NoClassDefFoundError: Could not initialize class org.apache.http.conn.ssl.SSLConnectionSocketFactoryjava.sql.SQLException: org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out原创 2022-12-25 22:26:58 · 1828 阅读 · 0 评论 -
dolphinscheduler 2.0.6 任务之间的参数传递及Java脚本引擎
Condition节点主要依据上游节点的执行状态(成功、失败)执行对应分支。Switch节点主要依据全局变量的值和用户所编写的表达式判断结果执行对应分支Switch节点官网描述上游任务传递给下游任务官网。原创 2022-12-01 17:03:52 · 1940 阅读 · 0 评论 -
审计日志功能实现优化及测试记录(参照若依系统,以dolphinscheduler 2.0.5 为例,实现相关功能)
🐬使用🐠若依-操作日志🐠引入海豚调度🐟引入审计日志包,增加`LogAnnotation`注解🐬问题记录及优化🐠service方法注解时而生效,时而不生效🐟不生效原因🐟修改🐡自我注入(纯测试)🐡接口中增加该方法🐠优化,增加批次号🐟ThreadLocal的使用🐡测试结果🐟地理位置的获取原创 2022-11-27 13:37:54 · 1535 阅读 · 0 评论 -
dolphinscheduler 2.0.5和2.0.6 体验记录及优化扩展(任务出现kill状态、未设置延时执行出现延时执行、系统变量扩展)
停止工作流的时候,其下的任务节点会出现状态,除此之外还有一种情况,手动运行选择失败策略的时候,任务节点同样被掉:创建工作流,延时执行时间为0,但是任务执行的时候出现延迟执行状态(2.0.5版本),2.0.6则显示提交成功(还不如2.0.5正确呢,延时的时候状态应该为延时执行)详见官网调度本身支持当前是第几周(小写w):,假如现在是第48周,需要前一周,即47;参照方法增加方法,参数直接复用现有的方法,详情如下:原创 2022-11-26 15:30:19 · 1262 阅读 · 0 评论 -
dolphinscheduler 2.0.6 负载均衡源码
只有线性负载真正实现了原创 2022-11-23 00:26:46 · 621 阅读 · 0 评论 -
dolphinscheduler 2.0.5 性能手动测试
调度配置默认的值,是安全的,但是当系统环境配置比较高的时候,无法充分利用资源,突然找到了此次测试的意义:找到合适的参数大小,充分理由资源配置,同时保障工作流稳定运行(测试数据就是简单的shell任务,因此对内存几乎没影响)此时任务出现阻塞失败情况。原创 2022-11-22 23:10:25 · 1022 阅读 · 0 评论 -
20221106日常记录-奇安信源代码扫描代码注入、海豚调度2.0.5-condition节点使用
奇安信源代码扫描代码注入、跨站脚本、海豚调度2.0.5-condition节点使用原创 2022-11-06 23:13:39 · 2150 阅读 · 3 评论 -
dolphinscheduler 3.0.1 安全中心
3.0 用户管理授权做了优化,新增了云相关模块原创 2022-10-30 23:36:25 · 478 阅读 · 0 评论 -
dolphinscheduler 3.0.1 监控中心(上):服务管理
Master、WorkerCuratorFrameworkDataSource 和HikariDataSource原创 2022-10-30 22:33:00 · 1206 阅读 · 0 评论 -
dolphinscheduler 3.0.1 数据源中心及使用
海豚调度spark数据源组件spark sql 和 hive sql HikariCP的使用Druid vs HikariCPDruid防sql注入原创 2022-10-30 20:35:30 · 2767 阅读 · 4 评论 -
dolphinscheduler 3.0.1数据质量
校验公式:[校验方式][操作符][阈值],如果结果为真,则表明数据不符合期望,执行失败策略校验方式:[Expected-Actual][期望值-实际值] [Actual-Expected][实际值-期望值][Actual/Expected][实际值/期望值]x100%[(Expected-Actual)/Expected][(期望值-实际值)/期望值]x100%操作符:=、>、>=、原创 2022-10-26 18:38:08 · 3963 阅读 · 12 评论 -
dolphinscheduler 3.0.1 资源中心
资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境,可以选择本地文件目录作为上传文件夹(此操作不需要Hadoop部署)。当然,你也可以 选择上传到 Hadoop 或者 MinIO 集群。在这种情况下,您需要有 Hadoop(2.6+)或 MinION 等相关环境。原创 2022-10-26 11:53:46 · 2795 阅读 · 5 评论 -
dolphinscheduler 3.0.1 监控中心(下):审计日志
最近项目中要引入审计日志模块,第一次看到审计日志就是在3.0的监控中心,当时以为是和数据质量绑定的什么新功能呢,后来发现其实就是操作日志(没感觉到有啥区别,就是审计这个字眼感觉好像更严谨似的),记录一下当前用户什么时间进行了增删改查操作,假如环境突然出问题了,可以通过操作日志查看,是不是有人删了数据。原创 2022-10-25 20:30:19 · 1339 阅读 · 1 评论 -
dolphinscheduler 1.2.1 运行datax任务,重复同步数据库问题排查记录
稳定跑了一年的调度系统,突然包含datax节点的工作流集体报错,报错原因都是主键冲突,点进去查看,发现报错的节点大部分实际上是成功状态,但是状态为失败,而真正失败的节点报的都是主键冲突错。原创 2022-10-14 17:11:26 · 2540 阅读 · 0 评论 -
dolphinscheduler 3.0.1 项目管理(三):任务
增加了任务组,组内优先级但是任务组(资源中心再详聊)还创建不了,净整花里胡哨的海豚调度更新迭代是块,所以bug产量也多,本地启动ui,和虚拟机上的效果还不一样!!!原创 2022-10-14 00:11:44 · 736 阅读 · 0 评论 -
dolphinscheduler 3.0.1 项目管理(二):工作流实例
删除、批量删除对应两个方法,底层调用的还是同一个方法,分开的原因时批量删除删除失败需要弹出提示,有哪些实例删除失败。算是漏掉的工作流定义中的功能,主要还是3.0bug太多,之前点击运行,看到没有节点执行栏位了,当时想的是可能默认成只执行当前节点了,现在看来不是。暂停的情况下,后面可能还需要继续执行,所有要等当前正在执行的任务跑完之后(保证数据完整性),暂停执行后续的节点,增加任务节点,再次验证。传入当前任务节点编码。顾名思义,以该节点作为起始节点,查询关系表,组装DAG,进行向前、向后、只执行该节点操作。原创 2022-10-12 20:22:13 · 1803 阅读 · 1 评论 -
dolphinscheduler 3.0.1 项目管理(二):工作流定义(下)
即不管怎么查询,都会被某一台master服务扫描到(指令id % master数量 = master下标),如下,假如有三台master服务,可以得到master服务的下标0,1,2 >看了一下最新代码,已经修正了,确实判断错了,正确的就应该判断实例存在的情况下,抛弃这些实例,执行最新实例(3.0工作流定义增加了执行策略,2.0的时候表里面就有这个字段,但是功能未实现,3.0现在有了。心中一阵MMP之后,挺好的,说明看代码还是有效果的,都能发现错误了,正好检验一下自我。页面感觉也不好看,好素。原创 2022-10-11 19:47:46 · 1003 阅读 · 0 评论 -
dolphinscheduler 3.0.1 项目管理(二):工作流定义(上)
fastjson是阿里巴巴的开源JSON解析库,它可以解析JSON格式的字符串,支持将Java Bean序列化为JSON字符串,也可以从JSON字符串反序列化到JavaBean;当数据量较少时首选fastjson;今天看了下官网,发现最新发布版本为3.1.0,更新速度是真快,其实不管哪个版本,处于学习的目的,都能够满足。jackson是基于Java平台的一套数据处理工具,被称为“最好的Java Json解析器”;数据量较大使用jackson;原创 2022-10-09 17:13:58 · 1711 阅读 · 0 评论 -
dolphinscheduler 3.0.1 项目管理(一):项目基本操作、项目概览及工作流关系
dolphinscheduler 3.0.1 项目管理(一):项目基本操作、项目概览及工作流关系功能介绍,源码研究原创 2022-10-08 17:20:56 · 1262 阅读 · 0 评论 -
dolphinscheduler 3.0.1 IDEA远程调试配置
IDEA配置远程服务参数原创 2022-09-30 16:55:33 · 1216 阅读 · 0 评论 -
dolphinscheduler 3.0.1首页功能介绍及前端项目本地启动配置
首页功能介绍及前端项目本地启动配置原创 2022-09-30 11:42:03 · 1932 阅读 · 2 评论 -
dolphinscheduler 3.0.1代码下载编译及部署
如果只是为了登录简单了解,查看有哪些功能,也可以什么都不用修改,直接启动standalone,该模式使用的h2数据库(如果重启服务,数据初始化,原先创建的数据将不复存在)安装包apache-dolphinscheduler-3.0.1-SNAPSHOT-bin.tar.gz,在dist目录下面。下载的版本为3.0.1release,但是版本号为3.0.2,果断全文替换。还原该文件,通过IDEA配置编码,重新编译。原创 2022-09-29 16:41:07 · 2947 阅读 · 3 评论 -
dolphinscheduler 3.0.1功能梳理及源码解读
dolphinscheduler 3.0.1功能梳理及源码解读原创 2022-09-29 11:50:37 · 1658 阅读 · 3 评论 -
dolphinscheduler 2.0.5多个网卡情况下指定具体网卡代码改造
原因是多个网卡导致的,后台默认取第一个网卡,当时是自己搭建的虚拟机,解决方式是关闭多余的网卡。但是假如生产上,大家都在用,就不能采取该方式了,只能修改代码了。原创 2022-08-19 11:58:47 · 699 阅读 · 0 评论 -
转载:Apache DolphinScheduler 3.0.0 正式版发布
经过迭代的 3.0.0 正式版与此前 3.0.0 alpha 版本更新文中所描述的主要功能和特性更新、优化项和 Bug 修复大致一致,包括“更快、更强、更现代化、更易维护”这四个关键词总结。转载 2022-08-11 09:12:29 · 335 阅读 · 0 评论 -
dolphinscheduler-2.0.5 Python任务使用记录(资源栏位)
dolphinscheduler2.0.5-python任务使用记录(资源栏位)原创 2022-07-20 17:50:06 · 1027 阅读 · 0 评论 -
dolphinscheduler 2.0.5 spark 任务测试总结(源码优化)
dolphinscheduler 2.0.5 spark 任务测试总结(源码优化)原创 2022-06-15 16:32:38 · 727 阅读 · 0 评论 -
dolphinscheduler涉及HDFS功能测试(三)spark task
🍇报错:py4j-0.10.9.3-src.zip does not exist🍇报错:2.2 GB of 2.1 GB virtual memory used🍇报错:Stack trace: ExitCodeException exitCode=1:python2升级3原创 2022-06-13 00:33:14 · 1932 阅读 · 0 评论 -
Java项目通过pushgateway主动推送消息到Prometheus2.35
java调用pushgateway实现原创 2022-05-19 12:53:36 · 2818 阅读 · 1 评论 -
AlertManager告警的单独使用及prometheus配置告警规则使用
prometheus配置AlertmanagerAlertmanager单独调用原创 2022-05-17 09:37:57 · 1471 阅读 · 0 评论 -
dolphinscheduler 2.0.5-存储过程任务测及代码优化
方法尚未被实作PGSQL存储过程定义任务一直都是成功状态PGSQL报错处理存储过程返回值校验添加原创 2022-04-29 19:28:36 · 2514 阅读 · 3 评论