自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Apache DolphinScheduler开源社区

新一代大数据任务调度 - Apache DolphinScheduler社区,致力于“解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程可直观感知”。已累计有IBM、腾讯、360、美团等 400+ 公司在生产上使用。

  • 博客(505)
  • 资源 (3)
  • 问答 (29)
  • 收藏
  • 关注

原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践

Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...

2022-06-16 18:00:04 866

原创 深入工作流调度的内核

工作流任务调度是什么?简单来说,它是指在特定的时间点或条件下,根据预设的规则和依赖关系,自动触发并执行一系列任务的过程。它通常涉及多个任务之间的依赖关系,需要确保这些任务按照正确的顺序和时机执行。作业计划(Job Plan)和任务实例(Task Instance)。作业计划是指预定的任务执行策略,包括何时执行、依赖关系以及执行条件等。而任务实例则是指在具体时间点上执行的任务。在工作流调度中,任务实例的生成通常基于作业计划,通过对作业的依赖关系进行解析,确保作业按照预期顺序和时间执行。

2024-09-27 10:36:10 992

原创 Apache DolphinScheduler-1.3.9源码分析(一)

任务实例不会下发到worker节点执行,在submitTask(TaskInstance taskInstance)方法中,针对子流程,会增加一条子流程实例命令,然后在waitTaskQuit方法中循环等待子流程执行完成。Conditions 是一个条件节点,根据上游任务运行状态,判断应该运行哪个下游任务。如果你对 Apache DolphinScheduler 的源码有兴趣,可以深入研究其任务调度策略的细节部分,或者根据自身业务场景进行二次开发,充分发挥 DolphinScheduler 的调度能力。

2024-09-26 13:42:42 1056

原创 轻松编排工作流,浅谈DolphinScheduler如何使用Python调用API接口?

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2024-09-25 14:22:51 865

原创 【Meetup预约】从哔哩哔哩到阿里云:大数据调度与云上数仓的最佳实践

是一个云原生并带有强大可视化界面的大数据工作流调度平台,致力于让调度变得更加容易,已在 3000+家公司的生产环境上稳定运行。身为一款专门针对于大数据平台和大模型的工作调度系统,支持可视化的数据准备和大模型FineTune等功能。同时Apache DolphineScheduler还拥有十分活跃的社区与定期的交流会。本文由白鲸开源科技提供发布支持!

2024-09-20 14:17:06 940

原创 中电信翼康基于Apache Dolphinscheduler重构“星海·济世医疗数据中台”实践经验分享

中国电信依托多年行业积累,定制打造医疗行业数据中台,以夯实卫生健康信息化新基建能力为目标,赋能行业客户,深化数据集成治理与开发应用能力,推进健康医疗大数据应用发展,充分释放数据价值。星海·济世医疗数据中台以“湖仓一体、流批一体”技术为核心,围绕健康医疗数据在集成、存储、治理、建模、分析、挖掘、服务、应用、流通等各个环节的需求,构建数据全生命周期管理的能力平台。

2024-09-20 13:30:44 1164

原创 怎么办?用DolphinScheduler调度执行复杂的HiveSQL时无法正确识别符号

在使用Apache DolphinScheduler调度执行复杂的HiveSQL时,HQL包含多种海豚无法正确识别的符号,怎么办?本文提供了可行的思路和方法,供用户参考。

2024-09-19 11:16:20 713

原创 Apache DolphinScheduler 跨工作流复杂依赖功能详解

大家可以看看下面这张图片,当你在 DolphinScheduler 中创建一个后,你可以选择项目名称、工作流名称和任务名称,从而指定跨工作流的任务依赖。甚至在跨项目的工作流中,也可以通过这种方式进行配置。有些人可能会问:为什么我们不在同一个工作流里解决依赖关系?这是因为,在像 Apache DolphinScheduler 或 Airflow 这样的开源调度工具中,调度的属性是在工作流级别上定义的,而不是任务本身。如果两个任务之间存在依赖关系,但它们的调度周期不同,就需要通过跨工作流依赖来解决。

2024-09-14 14:06:38 1334

原创 单机快速部署开源、免费的分布式任务调度系统——Apache DolphinScheduler

本文主要为大家介绍Apache DolphinScheduler的单机部署方式,方便大家快速体验。

2024-09-14 14:04:05 1130

原创 万字长文 | Apache开源社区出海的“踩坑”之路,看完这3点你就明白了

我是前开放原子开源基金会社区经理,目前担任白鲸开源高级社区经理,主要负责 Apache DolphinScheduler 和 SeaTunnel 社区的全球化运营工作,0-1搭建开源项目出海及落地策略,主导项目的生态建设,维护开发者关系,并提升“开源项目”在全球的影响力及社区内部的建设,致力于传播开源文化。白鲸开源是一家伟大的开源商业化公司。在这家公司工作的几年里,我学到了很多东西。如果我的文章中有任何疏漏,还请各位多多包涵,并及时反馈给我!

2024-09-11 16:56:19 1198

原创 如何在Windows上搭建并运行DolphinScheduler前后端开发环境

Apache DolphinScheduler 是一个优秀的分布式调度系统,广泛应用于大数据处理和自动化任务管理中。本文详细介绍了如何在Windows环境下搭建Apache DolphinScheduler的前后端开发环境。包括从源码的下载、环境配置、数据库初始化、依赖安装等具体步骤,帮助开发者在本地快速搭建并运行DolphinScheduler,适用于新手开发者和有一定经验的技术人员。通过本教程,你已经成功在Windows系统上搭建并运行了DolphinScheduler的前后端开发环境。

2024-09-11 11:13:43 481

原创 海豚调度清理:使用 API 轻松清理工作流历史版本记录,一键减少关系日志和任务定义日志表的数据量

我们知道 DolphinScheduler 的工作流是有版本控制的,每一次更新任务、添加任务、修改任务等等操作,都会生成一个新的版本号,同时 process_definition_log 和 process_task_relation_log 的数据也会增加,久而久之,会积累大量的"无用数据",MySQL 的记录越来越多,会影响调度的服务,进而影响用户使用体验和 MySQL 服务。以上就使用 API 一键减少关系日志表和任务定义日志表的数据量的过程,如果有任何疑问,都可以与我交流,希望可以帮到你,下次见。

2024-09-08 00:12:59 634

原创 Apache DolphinScheduler在Cisco Webex的应用与优化实践

以上就是我今天的全部分享内容。在过去的两年里,我们在基于DolphinScheduler的系统中遇到了许多挑战,并通过一系列的改进和创新,成功应对了这些挑战。未来,我们将继续致力于优化和扩展Apache DolphinScheduler,并将新功能持续回馈给社区。本文由白鲸开源科技提供发布支持!

2024-09-04 14:43:03 1147

原创 Apache DolphinScheduler项目与社区7-8月发展报告

各位热爱 Apache DolphinScheduler 的小伙伴们,社区7-8月报更新啦!这里将记录 Apache DolphinScheduler 社区每月的重要更新,欢迎关注!

2024-09-03 16:43:49 826

原创 Apache DolphinScheduler大规模任务调度系统对大数据实时Flink任务支持

转载自神龙大侠我是用olphinScheduler 3.2.1版本做源代码编译部署(部署方式参考我的另外一篇文档二进制文件部署本文也适用,只需要修改相对应的配置即可。

2024-09-02 16:32:45 1291

原创 Apache DolphinScheduler中处理任务/告警/事件相关核心思路曝光

最近在看Apache DolphineScheduler,发现DolphinScheduler在处理任务时,通过先将任务快速的存储在数据库中,然后基于对应的Task,将Task放入队列中,然后将Task进行快速消费的思路。这种模型在很多框架中,都有体现。我们知道在Master模块时处理任务的核心模块,而API模块主要是界面中操作的UI逻辑,而Alert模块是告警模块。因此如果想要了解里面的逻辑,可以通过查看API中工作流的执行可以找到一些线索之外,可以在Master中可以了解到核心的逻辑。

2024-08-28 16:25:26 546

原创 兴业证券基于Apache DolphinScheduler的应用实践

由于每个项目组都有其独特的业务逻辑和调度要求,为此平台将会提供更加丰富、更加精细化的调度选项,确保项目组能够根据自己的实际需求,选择最合适的任务类型进行调度。当负责执行任务的Worker-Server节点宕机时,Master-Server能够通过Worker-Server注册在ZooKeeper上的心跳节点及时感知到具体Worker-Server的下线行为,随即将该Worker-Server上正在执行的任务重新分发至其他存活的Worker-Server,实现任务故障转移,保障任务的正常执行。

2024-08-28 15:19:16 1362

原创 AI创新,DataOps聚能 | 白鲸开源DTCC共话DataOps新篇章

近日,由IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第15届中国数据库技术大会(DTCC 2024)隆重召开。大会以“自研创新 数智未来”为主题,吸引了数百位行业专家和广大数据领域从业者共聚这场年度数据库技术交流盛宴,共同探讨新时代下数据库的技术动态和应用实践。作为全球领先的DataOps践行者,参加了大会的,分享了题为《智能数据管理:AI驱动的DataOps实践》的精彩演讲。

2024-08-27 16:04:33 590

原创 白鲸开源中标申万宏源DataOps数据开发运维一体化平台采购项目!

白鲸开源近日成功中标申万宏源证券有限公司的DataOps数据开发运维一体化平台项目。这一合作将为申万宏源带来一系列显著优势:通过提供一站式的高性能数据调度管理方案,我们将显著增强申万宏源的数据管理能力,确保系统的高可用性、高扩展性和高安全性。这不仅将推动申万宏源的业务增长,还将加速其智能化升级进程,为公司的长期繁荣提供新引擎。

2024-08-27 11:13:22 542

原创 源代码编译,Apache DolphinScheduler前后端分离部署解决方案

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2024-08-27 11:08:37 1286

原创 从零到一,全面掌握Apache DolphinScheduler发版流程,实战派经验分享!

引言Apache DolphinScheduler的发版流程对于确保软件质量和社区协作至关重要,社区Committer王兴杰为我们详细介绍了Apache DolphinScheduler的发版流程,包括环境准备、流程文档、基础工具准备、依赖包确认等关键步骤,并指出了发版流程中可能会遇到的麻烦以及相应的解决方案,欢迎学习指正。一、发版物料(1)Apache要求a. Maven仓库物料(发版过程中会存储在临时库中)https://repository.apache.org/content/repos

2024-08-21 15:22:35 934

原创 Apache Dolphinscheduler Standalone 部署教程

Standalone 仅适用于 DolphinScheduler 的快速体验.如果你是新手,想要体验 DolphinScheduler 的功能,推荐使用Standalone方式体检。如果你想体验更完整的功能,或者更大的任务量,推荐使用。如果你是在生产中使用,推荐使用或者kubernetes。

2024-08-21 14:54:30 1110

原创 大厂是如何利用DolphinScheduler提效?

摘要随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。

2024-08-21 14:34:41 821

原创 Apache Dolphinscheduler在某新能源企业的落地与实践

某企业深耕于新能源制造行业,致力于推动能源技术的发展与应用。作为一家具有多年行业经验的企业,我们在新能源领域积累了深厚的技术实力和市场认知,业务涵盖了新能源产业链的关键环节,从上游的装备制造业到下游的应用解决方案,为客户提供全方位的服务。随着业务的不断发展,日益增长的跨基地生产数据同步及计算对我们的整体数据架构带来了极大的挑战。

2024-08-14 22:16:59 303

原创 海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件

这里解释一下 flag = 1 是标识该任务的最新的运行记录,表示任务多次重试之后,最新的运行记录。如果任务第一次失败了,第二次重试之后成功了,那么这个任务就会有两条运行记录,flag = 0 和 falg = 1,flag =1 的则标识最新的运行记录。但是这里需要注意的是,海豚调度 3.2.0(不包含)以前的版本,这里有一个 bug,在查询工作流实例下面的任务实例的时候,只查询了 flag =1 的任务实例,所以就导致了在清理日志和记录的时候,漏掉了一部分。2.可以删除的工作流的状态是一定要是。

2024-08-14 14:02:42 352

原创 猪脸识别、自动投喂!Apache DolphinScheduler还能做这些?

李贤利,铁骑力士集团的IT架构师,拥有电子与通信工程专业背景,自2014年毕业以来,积累了丰富的行业经验。在广电和军工行业深耕7年后,他将专业视野拓展至农牧养殖食品领域,至今已在铁骑力士集团服务3年。李贤利在分布式系统建设方面尤为擅长,并积极投身于大数据应用、计算机视觉以及大模型落地探索等前沿技术研究。随着数字化转型的不断深入,铁骑力士集团将继续探索和实践新技术,以实现更高效、更智能的企业运营。Apache DolphinScheduler作为集团数字化转型的重要工具,将继续在这一过程中发挥关键作用。

2024-08-13 15:39:01 501

原创 联通数科如何基于Apache DolphinScheduler构建DataOps一体化能力平台

各位小伙伴晚上好,我是联通数字科技有限公司数据智能事业部的王兴杰。今天,我将和大家聊一聊联通数字科技有限公司是如何基于Apache DolphinScheduler构建DataOps一体化能力平台的。

2024-08-09 16:42:05 1007

原创 AI 大模型时代呼唤新一代基础设施,DataOps 2.0和编排愈发重要

在 AI 时代,DataOps 2.0 代表了一种全新的数据管理和操作模式,通过自动化数据管道、实时数据处理和跨团队协作,DataOps 2.0 能够加速数据分析和决策过程。它融合了人工智能和机器学习技术,使得数据的获取、清洗和分析更加高效,推动企业在快速变化的市场中保持竞争优势。另一方面,在 AI 时代,调度编排技术正变得愈发重要,成为高效资源管理和任务自动化的核心。通过智能算法和机器学习,调度编排能够实时分析系统负载、优化资源分配,并根据需求动态调整任务执行顺序。

2024-08-07 16:37:02 1128

原创 WhaleStudio荣获第六届“中国创翼”创业创新大赛北京市选拔赛暨第七届“创业北京”创业创新大赛优秀奖

此次获得奖项的产品「全球领先的大模型时代数据工程平台」WhaleStudio是白鲸开源根据全球最佳实践发布的商业化云原生DataOps平台,由Apache DolphinScheduler和Apache SeaTunnel核心研发成员开发,其包含的WhaleScheduler数据调度模块提供实时任务管理支持的能力,WhaleTunnel提供强大的数据集成能力,综合起来,WhaleStudio旨在助力企业智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,提高企业解决数据问题的效率的能力。

2024-08-07 16:26:40 344

原创 B站基于Apache DolphinScheduler的一站式大数据集群管理平台(BMR)初窥

不断完善覆盖面和使用场景的同时,一些重要的且短时间未实现数据闭环的场景,BMR在‘智能运维’模块的‘巡检’能力,去兜底去发现未知原因产生的脏数据或不一致的问题,让风险尽早被发现、被干预、被解决。产品层本着‘一站式’的思想, 在操作集群管理时, 用户只需选择发布的组件、对应的主机节点, 及发布策略, 即可快捷完成变更操作。业务数据和逻辑集中在‘元数据’、‘配置中心’、‘主机管理’和‘发布服务’四大模块中,对用户由‘集群大盘’、‘集群管理’、‘组件管理’、‘变更管控’和‘资源管理’来呈现。

2024-08-07 16:03:15 834

原创 Apache DolphinScheduler 1.3.4升级至3.1.2版本过程中的踩坑记录

因为在工作中需要推动Apache DolphinScheduler的升级,经过预研,从1.3.4到3.1.2有的体验了很大的提升,在性能和功能性有了很多的改善,推荐升级。查看官方的升级文档,可知有提供升级脚本,如果只是跨小版本的更新那么只用执行脚本就好了,但跨多个大版本升级时依然容易出现各种问题,特此总结。升级完成后使用资源中心报错 资源中心使用的HDFS,开启了认证解决方法:编辑 添加以下内容2.任务实例日志丢失升级完成后查看任务实例的日志,报错未找到日志,查看报错信息,检查新版本的目录结构和表里的日志

2024-08-02 10:33:20 454

原创 想不到WhaleStudio和Talend的差异竟如此之大!

最近我们遇到很多客户需求是把Talend迁移到WhaleStudio,主要是发现WhaleStudio支持的数据源多很多,从各个版本的SAP到AWS Redshift,S3,从MangoDB CDC到 Neo4J甚至各种国产信创数据源,可谓应有尽有。同时,客户发现WhaleStudio同步效率比Talend要高,加上WhaleStudio简单易操作,更符合华人的使用习惯,使得整体开发效率提升。因此开始大量客户开始尝试POC并迁移上线。

2024-08-01 11:53:43 357

原创 Apache DolphinScheduler用户线上Meetup火热来袭!

Apache DolphinScheduler 社区 8 月用户交流会精彩继续!本次活动邀请到老牌农牧产品实业集团铁骑力士架构工程师,来分享Apache DolphinScheduler在现代农牧食品加工场景中的应用实践。

2024-07-30 17:02:25 386

原创 Apache DolphinScheduler使用图关系解决核心链路告警问题,减轻任务运维负担!

转载自程序员小陶先思考一下。

2024-07-30 14:39:51 409

原创 Apache DolphinScheduler Worker Task执行原理解析

Apache DolphinScheduler是一个分布式、易扩展的可视化工作流调度开源系统,适用于企业级场景。它提供了以下主要功能,通过可视化操作,提供了工作流和任务全生命周期的数据处理解决方案。白鲸开源是一家开源原生的 DataOPS 商业公司,由多个Apache基金会成员创立。公司主要参与贡献了两个Apache开源项目,一个是Apache DolphinScheduler,另一个是Apache SeaTunnel。基于这两个项目,我们打造了一个商业产品——WhaleStudio。

2024-07-25 19:06:24 1190

原创 DataOps 新趋势:联通数科如何利用 DolphinScheduler 实现数据一体化管理

是一个云原生并带有强大可视化界面的大数据工作流调度平台,致力于让调度变得更加容易,已在 3000+家公司的生产环境上稳定运行。身为一款专门针对于大数据平台和大模型的工作调度系统,支持可视化的数据准备和大模型FineTune等功能。同时Apache DolphineScheduler还拥有十分活跃的社区与定期的交流会。本文由白鲸开源科技提供发布支持!

2024-07-25 19:00:30 664

原创 Apache DolphinScheduler 3.2.2 版本正式发布!

Improvement-16125][dolphinscheduler-dist] 减少二进制分发 tarball 文件的大小 ([Improvement-15603][API] 删除、修改工作流时,系统可以检查是否有任何任务依赖于它。[Improvement-15919][datasource] Improvement数据源获取名称 ([Bug][dolphinscheduler-task-seatunnel] 脚本资源文件路径错误 (

2024-07-23 15:24:45 1636

原创 如何在AWS上构建Apache DolphinScheduler

社区的活跃不仅仅体现在代码产出上,更重要的是社区的建设和生态的完善。首先我们可以看一下下面这张图,这张图是亚马逊云科技数据分析的服务的一个整体介绍,这里边会去按照像刚才的开源项目的一些分类,就是我们把从数据接入、数据处理、数据湖再到数据分析,还有一些结合 AI 模型 learning 的一些服务,做了一个分类。随着云计算技术的发展,Amazon Web Services (AWS) 作为一个开放的平台,一直在帮助开发者更好的在云上构建和使用开源软件,同时也与开源社区紧密合作,推动开源项目的发展。

2024-07-18 17:01:54 1090

原创 祝贺小鹏汽车Gallardot同学成为Apache DolphinScheduler Committer!

社区迎来新committer!这次是来自小鹏汽车的Gallardot,看看他与Apache DolphinScheduler社区的故事吧。

2024-07-16 14:17:58 388

原创 使用 Apache DolphinScheduler 构建和部署大数据平台,将任务提交至 AWS 的实践经验

李庆旺- 软件开发工程师,思科。

2024-07-11 21:06:57 1437

Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx

新一代开源大数据任务调度 Apache DolphinScheduler 如何高效支撑企业大数据核心业务

2020-11-30

新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap

DolphinScheduler 介绍 DolphinScheduler 应用案例 1.3.3 新版本发布 近期 Roadmap 参与开源

2020-11-24

开源时代

2021-03-31

Apache DolphinScheduler的全球交流工具是?

2021-01-28

DolphinScheduler Docker 镜像仓库在?

2021-01-26

工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?

2021-01-04

欢迎大家来社区提问哈,看看遇到了什么问题?

2020-12-31

使用 mvn clean package -Prelease 编译后并未找到编译好的二进制部署包?

2020-12-22

想参与贡献,不知道该如何参与?

2020-12-21

DolphinScheduler里的监控页面里显示的Zookeeper数据全是-1,怎么破?

2020-12-15

上游依赖未成功,下游任务可以一直等待么?

2020-12-14

Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?

2020-12-08

哪里有关于 DolphinScheduler 的分享(PPT | 视频)?

2020-12-08

DolphinScheduler 官方公众号上有各种部署、使用及原理源码分析视频,欢迎关注

2020-12-04

想参与社区贡献,不知如何参与?

2020-12-04

DolphinScheduler支持mysql 8 作为数据库么?

2020-12-03

DolphinScheduler单机部署有教程么?

2020-11-30

在哪里下载DolphinScheduler安装包呢?

2020-11-27

为什么要参与开源贡献?

2020-11-27

Python 任务如何设置 Python 的版本?

2020-11-26

DolphinScheduler流程定义有几种启动方式

2020-11-26

DolphinScheduler的用户案例

2020-11-25

DolphinScheduler 主要能力体现在哪些方面?

2020-11-25

DolphinScheduler有多少家公司在生产上使用?

2020-11-25

DolphinScheduler系统支持哪些邮箱?

2020-11-23

DolphinScheduler 服务介绍及建议运行内存

2020-11-23

遇到问题,如何得到社区的帮助

2020-11-23

DolphinScheduler项目的官网地址是?

2020-11-23

如何参与DolphinScheduler社区?

2020-11-23

如何在线试用Demo?

2020-11-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除