自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Apache DolphinScheduler开源社区

新一代大数据任务调度 - Apache DolphinScheduler社区,致力于“解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程可直观感知”。已累计有IBM、腾讯、360、美团等 400+ 公司在生产上使用。

  • 博客(499)
  • 资源 (3)
  • 问答 (29)
  • 收藏
  • 关注

原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践

Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...

2022-06-16 18:00:04 836

原创 Apache DolphinScheduler 跨工作流复杂依赖功能详解

大家可以看看下面这张图片,当你在 DolphinScheduler 中创建一个后,你可以选择项目名称、工作流名称和任务名称,从而指定跨工作流的任务依赖。甚至在跨项目的工作流中,也可以通过这种方式进行配置。有些人可能会问:为什么我们不在同一个工作流里解决依赖关系?这是因为,在像 Apache DolphinScheduler 或 Airflow 这样的开源调度工具中,调度的属性是在工作流级别上定义的,而不是任务本身。如果两个任务之间存在依赖关系,但它们的调度周期不同,就需要通过跨工作流依赖来解决。

2024-09-14 14:06:38 1071

原创 单机快速部署开源、免费的分布式任务调度系统——Apache DolphinScheduler

本文主要为大家介绍Apache DolphinScheduler的单机部署方式,方便大家快速体验。

2024-09-14 14:04:05 1013

原创 万字长文 | Apache开源社区出海的“踩坑”之路,看完这3点你就明白了

我是前开放原子开源基金会社区经理,目前担任白鲸开源高级社区经理,主要负责 Apache DolphinScheduler 和 SeaTunnel 社区的全球化运营工作,0-1搭建开源项目出海及落地策略,主导项目的生态建设,维护开发者关系,并提升“开源项目”在全球的影响力及社区内部的建设,致力于传播开源文化。白鲸开源是一家伟大的开源商业化公司。在这家公司工作的几年里,我学到了很多东西。如果我的文章中有任何疏漏,还请各位多多包涵,并及时反馈给我!

2024-09-11 16:56:19 1155

原创 如何在Windows上搭建并运行DolphinScheduler前后端开发环境

Apache DolphinScheduler 是一个优秀的分布式调度系统,广泛应用于大数据处理和自动化任务管理中。本文详细介绍了如何在Windows环境下搭建Apache DolphinScheduler的前后端开发环境。包括从源码的下载、环境配置、数据库初始化、依赖安装等具体步骤,帮助开发者在本地快速搭建并运行DolphinScheduler,适用于新手开发者和有一定经验的技术人员。通过本教程,你已经成功在Windows系统上搭建并运行了DolphinScheduler的前后端开发环境。

2024-09-11 11:13:43 372

原创 海豚调度清理:使用 API 轻松清理工作流历史版本记录,一键减少关系日志和任务定义日志表的数据量

我们知道 DolphinScheduler 的工作流是有版本控制的,每一次更新任务、添加任务、修改任务等等操作,都会生成一个新的版本号,同时 process_definition_log 和 process_task_relation_log 的数据也会增加,久而久之,会积累大量的"无用数据",MySQL 的记录越来越多,会影响调度的服务,进而影响用户使用体验和 MySQL 服务。以上就使用 API 一键减少关系日志表和任务定义日志表的数据量的过程,如果有任何疑问,都可以与我交流,希望可以帮到你,下次见。

2024-09-08 00:12:59 603

原创 Apache DolphinScheduler在Cisco Webex的应用与优化实践

以上就是我今天的全部分享内容。在过去的两年里,我们在基于DolphinScheduler的系统中遇到了许多挑战,并通过一系列的改进和创新,成功应对了这些挑战。未来,我们将继续致力于优化和扩展Apache DolphinScheduler,并将新功能持续回馈给社区。本文由白鲸开源科技提供发布支持!

2024-09-04 14:43:03 1118

原创 Apache DolphinScheduler项目与社区7-8月发展报告

各位热爱 Apache DolphinScheduler 的小伙伴们,社区7-8月报更新啦!这里将记录 Apache DolphinScheduler 社区每月的重要更新,欢迎关注!

2024-09-03 16:43:49 797

原创 Apache DolphinScheduler大规模任务调度系统对大数据实时Flink任务支持

转载自神龙大侠我是用olphinScheduler 3.2.1版本做源代码编译部署(部署方式参考我的另外一篇文档二进制文件部署本文也适用,只需要修改相对应的配置即可。

2024-09-02 16:32:45 1241

原创 Apache DolphinScheduler中处理任务/告警/事件相关核心思路曝光

最近在看Apache DolphineScheduler,发现DolphinScheduler在处理任务时,通过先将任务快速的存储在数据库中,然后基于对应的Task,将Task放入队列中,然后将Task进行快速消费的思路。这种模型在很多框架中,都有体现。我们知道在Master模块时处理任务的核心模块,而API模块主要是界面中操作的UI逻辑,而Alert模块是告警模块。因此如果想要了解里面的逻辑,可以通过查看API中工作流的执行可以找到一些线索之外,可以在Master中可以了解到核心的逻辑。

2024-08-28 16:25:26 522

原创 兴业证券基于Apache DolphinScheduler的应用实践

由于每个项目组都有其独特的业务逻辑和调度要求,为此平台将会提供更加丰富、更加精细化的调度选项,确保项目组能够根据自己的实际需求,选择最合适的任务类型进行调度。当负责执行任务的Worker-Server节点宕机时,Master-Server能够通过Worker-Server注册在ZooKeeper上的心跳节点及时感知到具体Worker-Server的下线行为,随即将该Worker-Server上正在执行的任务重新分发至其他存活的Worker-Server,实现任务故障转移,保障任务的正常执行。

2024-08-28 15:19:16 1341

原创 AI创新,DataOps聚能 | 白鲸开源DTCC共话DataOps新篇章

近日,由IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第15届中国数据库技术大会(DTCC 2024)隆重召开。大会以“自研创新 数智未来”为主题,吸引了数百位行业专家和广大数据领域从业者共聚这场年度数据库技术交流盛宴,共同探讨新时代下数据库的技术动态和应用实践。作为全球领先的DataOps践行者,参加了大会的,分享了题为《智能数据管理:AI驱动的DataOps实践》的精彩演讲。

2024-08-27 16:04:33 541

原创 白鲸开源中标申万宏源DataOps数据开发运维一体化平台采购项目!

白鲸开源近日成功中标申万宏源证券有限公司的DataOps数据开发运维一体化平台项目。这一合作将为申万宏源带来一系列显著优势:通过提供一站式的高性能数据调度管理方案,我们将显著增强申万宏源的数据管理能力,确保系统的高可用性、高扩展性和高安全性。这不仅将推动申万宏源的业务增长,还将加速其智能化升级进程,为公司的长期繁荣提供新引擎。

2024-08-27 11:13:22 518

原创 源代码编译,Apache DolphinScheduler前后端分离部署解决方案

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2024-08-27 11:08:37 1255

原创 从零到一,全面掌握Apache DolphinScheduler发版流程,实战派经验分享!

引言Apache DolphinScheduler的发版流程对于确保软件质量和社区协作至关重要,社区Committer王兴杰为我们详细介绍了Apache DolphinScheduler的发版流程,包括环境准备、流程文档、基础工具准备、依赖包确认等关键步骤,并指出了发版流程中可能会遇到的麻烦以及相应的解决方案,欢迎学习指正。一、发版物料(1)Apache要求a. Maven仓库物料(发版过程中会存储在临时库中)https://repository.apache.org/content/repos

2024-08-21 15:22:35 901

原创 Apache Dolphinscheduler Standalone 部署教程

Standalone 仅适用于 DolphinScheduler 的快速体验.如果你是新手,想要体验 DolphinScheduler 的功能,推荐使用Standalone方式体检。如果你想体验更完整的功能,或者更大的任务量,推荐使用。如果你是在生产中使用,推荐使用或者kubernetes。

2024-08-21 14:54:30 1088

原创 大厂是如何利用DolphinScheduler提效?

摘要随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。

2024-08-21 14:34:41 801

原创 Apache Dolphinscheduler在某新能源企业的落地与实践

某企业深耕于新能源制造行业,致力于推动能源技术的发展与应用。作为一家具有多年行业经验的企业,我们在新能源领域积累了深厚的技术实力和市场认知,业务涵盖了新能源产业链的关键环节,从上游的装备制造业到下游的应用解决方案,为客户提供全方位的服务。随着业务的不断发展,日益增长的跨基地生产数据同步及计算对我们的整体数据架构带来了极大的挑战。

2024-08-14 22:16:59 273

原创 海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件

这里解释一下 flag = 1 是标识该任务的最新的运行记录,表示任务多次重试之后,最新的运行记录。如果任务第一次失败了,第二次重试之后成功了,那么这个任务就会有两条运行记录,flag = 0 和 falg = 1,flag =1 的则标识最新的运行记录。但是这里需要注意的是,海豚调度 3.2.0(不包含)以前的版本,这里有一个 bug,在查询工作流实例下面的任务实例的时候,只查询了 flag =1 的任务实例,所以就导致了在清理日志和记录的时候,漏掉了一部分。2.可以删除的工作流的状态是一定要是。

2024-08-14 14:02:42 323

原创 猪脸识别、自动投喂!Apache DolphinScheduler还能做这些?

李贤利,铁骑力士集团的IT架构师,拥有电子与通信工程专业背景,自2014年毕业以来,积累了丰富的行业经验。在广电和军工行业深耕7年后,他将专业视野拓展至农牧养殖食品领域,至今已在铁骑力士集团服务3年。李贤利在分布式系统建设方面尤为擅长,并积极投身于大数据应用、计算机视觉以及大模型落地探索等前沿技术研究。随着数字化转型的不断深入,铁骑力士集团将继续探索和实践新技术,以实现更高效、更智能的企业运营。Apache DolphinScheduler作为集团数字化转型的重要工具,将继续在这一过程中发挥关键作用。

2024-08-13 15:39:01 486

原创 联通数科如何基于Apache DolphinScheduler构建DataOps一体化能力平台

各位小伙伴晚上好,我是联通数字科技有限公司数据智能事业部的王兴杰。今天,我将和大家聊一聊联通数字科技有限公司是如何基于Apache DolphinScheduler构建DataOps一体化能力平台的。

2024-08-09 16:42:05 982

原创 AI 大模型时代呼唤新一代基础设施,DataOps 2.0和编排愈发重要

在 AI 时代,DataOps 2.0 代表了一种全新的数据管理和操作模式,通过自动化数据管道、实时数据处理和跨团队协作,DataOps 2.0 能够加速数据分析和决策过程。它融合了人工智能和机器学习技术,使得数据的获取、清洗和分析更加高效,推动企业在快速变化的市场中保持竞争优势。另一方面,在 AI 时代,调度编排技术正变得愈发重要,成为高效资源管理和任务自动化的核心。通过智能算法和机器学习,调度编排能够实时分析系统负载、优化资源分配,并根据需求动态调整任务执行顺序。

2024-08-07 16:37:02 1093

原创 WhaleStudio荣获第六届“中国创翼”创业创新大赛北京市选拔赛暨第七届“创业北京”创业创新大赛优秀奖

此次获得奖项的产品「全球领先的大模型时代数据工程平台」WhaleStudio是白鲸开源根据全球最佳实践发布的商业化云原生DataOps平台,由Apache DolphinScheduler和Apache SeaTunnel核心研发成员开发,其包含的WhaleScheduler数据调度模块提供实时任务管理支持的能力,WhaleTunnel提供强大的数据集成能力,综合起来,WhaleStudio旨在助力企业智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,提高企业解决数据问题的效率的能力。

2024-08-07 16:26:40 334

原创 B站基于Apache DolphinScheduler的一站式大数据集群管理平台(BMR)初窥

不断完善覆盖面和使用场景的同时,一些重要的且短时间未实现数据闭环的场景,BMR在‘智能运维’模块的‘巡检’能力,去兜底去发现未知原因产生的脏数据或不一致的问题,让风险尽早被发现、被干预、被解决。产品层本着‘一站式’的思想, 在操作集群管理时, 用户只需选择发布的组件、对应的主机节点, 及发布策略, 即可快捷完成变更操作。业务数据和逻辑集中在‘元数据’、‘配置中心’、‘主机管理’和‘发布服务’四大模块中,对用户由‘集群大盘’、‘集群管理’、‘组件管理’、‘变更管控’和‘资源管理’来呈现。

2024-08-07 16:03:15 819

原创 Apache DolphinScheduler 1.3.4升级至3.1.2版本过程中的踩坑记录

因为在工作中需要推动Apache DolphinScheduler的升级,经过预研,从1.3.4到3.1.2有的体验了很大的提升,在性能和功能性有了很多的改善,推荐升级。查看官方的升级文档,可知有提供升级脚本,如果只是跨小版本的更新那么只用执行脚本就好了,但跨多个大版本升级时依然容易出现各种问题,特此总结。升级完成后使用资源中心报错 资源中心使用的HDFS,开启了认证解决方法:编辑 添加以下内容2.任务实例日志丢失升级完成后查看任务实例的日志,报错未找到日志,查看报错信息,检查新版本的目录结构和表里的日志

2024-08-02 10:33:20 437

原创 想不到WhaleStudio和Talend的差异竟如此之大!

最近我们遇到很多客户需求是把Talend迁移到WhaleStudio,主要是发现WhaleStudio支持的数据源多很多,从各个版本的SAP到AWS Redshift,S3,从MangoDB CDC到 Neo4J甚至各种国产信创数据源,可谓应有尽有。同时,客户发现WhaleStudio同步效率比Talend要高,加上WhaleStudio简单易操作,更符合华人的使用习惯,使得整体开发效率提升。因此开始大量客户开始尝试POC并迁移上线。

2024-08-01 11:53:43 336

原创 Apache DolphinScheduler用户线上Meetup火热来袭!

Apache DolphinScheduler 社区 8 月用户交流会精彩继续!本次活动邀请到老牌农牧产品实业集团铁骑力士架构工程师,来分享Apache DolphinScheduler在现代农牧食品加工场景中的应用实践。

2024-07-30 17:02:25 372

原创 Apache DolphinScheduler使用图关系解决核心链路告警问题,减轻任务运维负担!

转载自程序员小陶先思考一下。

2024-07-30 14:39:51 387

原创 Apache DolphinScheduler Worker Task执行原理解析

Apache DolphinScheduler是一个分布式、易扩展的可视化工作流调度开源系统,适用于企业级场景。它提供了以下主要功能,通过可视化操作,提供了工作流和任务全生命周期的数据处理解决方案。白鲸开源是一家开源原生的 DataOPS 商业公司,由多个Apache基金会成员创立。公司主要参与贡献了两个Apache开源项目,一个是Apache DolphinScheduler,另一个是Apache SeaTunnel。基于这两个项目,我们打造了一个商业产品——WhaleStudio。

2024-07-25 19:06:24 1128

原创 DataOps 新趋势:联通数科如何利用 DolphinScheduler 实现数据一体化管理

是一个云原生并带有强大可视化界面的大数据工作流调度平台,致力于让调度变得更加容易,已在 3000+家公司的生产环境上稳定运行。身为一款专门针对于大数据平台和大模型的工作调度系统,支持可视化的数据准备和大模型FineTune等功能。同时Apache DolphineScheduler还拥有十分活跃的社区与定期的交流会。本文由白鲸开源科技提供发布支持!

2024-07-25 19:00:30 636

原创 Apache DolphinScheduler 3.2.2 版本正式发布!

Improvement-16125][dolphinscheduler-dist] 减少二进制分发 tarball 文件的大小 ([Improvement-15603][API] 删除、修改工作流时,系统可以检查是否有任何任务依赖于它。[Improvement-15919][datasource] Improvement数据源获取名称 ([Bug][dolphinscheduler-task-seatunnel] 脚本资源文件路径错误 (

2024-07-23 15:24:45 1588

原创 如何在AWS上构建Apache DolphinScheduler

社区的活跃不仅仅体现在代码产出上,更重要的是社区的建设和生态的完善。首先我们可以看一下下面这张图,这张图是亚马逊云科技数据分析的服务的一个整体介绍,这里边会去按照像刚才的开源项目的一些分类,就是我们把从数据接入、数据处理、数据湖再到数据分析,还有一些结合 AI 模型 learning 的一些服务,做了一个分类。随着云计算技术的发展,Amazon Web Services (AWS) 作为一个开放的平台,一直在帮助开发者更好的在云上构建和使用开源软件,同时也与开源社区紧密合作,推动开源项目的发展。

2024-07-18 17:01:54 1078

原创 祝贺小鹏汽车Gallardot同学成为Apache DolphinScheduler Committer!

社区迎来新committer!这次是来自小鹏汽车的Gallardot,看看他与Apache DolphinScheduler社区的故事吧。

2024-07-16 14:17:58 378

原创 使用 Apache DolphinScheduler 构建和部署大数据平台,将任务提交至 AWS 的实践经验

李庆旺- 软件开发工程师,思科。

2024-07-11 21:06:57 1413

原创 讲师招募 | Apache DolphinScheduler Meetup诚邀您共建开源!

随着Apache DolphinScheduler在全球范围内的快速发展,我们的用户群体和社区活动也在不断扩大。为了进一步丰富我们的社区内容,分享更多有价值的知识和经验,我们诚挚地邀请您加入我们,成为Apache DolphinScheduler社区的分享嘉宾。

2024-07-10 14:21:43 702

原创 2024全球数字经济大会:大模型时代下DataOps驱动企业数智化升级

7月5日,以“开源生态筑基础,数字经济铸未来”为主题的2024全球数字经济大会在北京成功举办,来自全国各地的专家学者、企业代表、数据库行业从业人士及众多开源开发者,共聚一堂,共同探讨开源数据库技术的发展现状与未来趋势,助力构建开放、共赢的数据库生态体系,为开源生态的繁荣发展添砖加瓦。在会上,于「开放原子开源数据库生态论坛」上发分享了题为的演讲,并在「开源与闭源,在行业应用中的发展潜能」的圆桌对话中分享了自己的开源心得体会与经验。

2024-07-08 17:43:41 1192

原创 从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!

DataOps不仅是一种技术实践,更是一种文化和思维方式。随着AI技术的不断进步,DataOps将继续推动企业数据管理和AI模型开发的创新和发展。代立冬白鲸开源科技联合创始人Apache 孵化器导师ApacheCon 亚洲大数据湖仓论坛出品人中国科协 “2023开源创新榜” 优秀人物本文由白鲸开源科技提供发布支持!

2024-07-08 17:30:13 964

原创 Apache DolphinScheduler如何开启开机自启动功能?

Apache DolphinScheduler 是一个分布式、去中心化的大数据工作流调度系统,支持大数据任务调度。若要设置 DolphinScheduler 开机自启动,通常需要将其配置为系统服务。

2024-07-08 17:26:45 1040

原创 社区6月月报 | Apache DolphinScheduler重要修复和优化记录

各位热爱Apache DolphinScheduler的小伙伴们,社区6月月报更新啦!这里将记录Apache DolphinScheduler社区每月的重要更新,欢迎关注。

2024-07-08 17:24:39 805

原创 Apache DolphinScheduler 与 AWS 的 EMR/Redshift 集成实践分享

Redshift:用于数据仓库的解决方案。EMR:Hadoop生态圈的大数据处理组件。:任务调度工具。在大数据处理的下游,还包括BI(商业智能)、传统机器学习和最新的生成式AI,再往下是企业中的人、应用和设备。这张图展示了整个数据处理和分析的流程,使得数据处理过程更加直观和流畅。EMR与DolphinScheduler的实践Redshift与DolphinScheduler的实践在此之前,我们先对EMR做一个简要介绍。

2024-07-05 11:29:42 981

Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx

新一代开源大数据任务调度 Apache DolphinScheduler 如何高效支撑企业大数据核心业务

2020-11-30

新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap

DolphinScheduler 介绍 DolphinScheduler 应用案例 1.3.3 新版本发布 近期 Roadmap 参与开源

2020-11-24

开源时代

2021-03-31

Apache DolphinScheduler的全球交流工具是?

2021-01-28

DolphinScheduler Docker 镜像仓库在?

2021-01-26

工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?

2021-01-04

欢迎大家来社区提问哈,看看遇到了什么问题?

2020-12-31

使用 mvn clean package -Prelease 编译后并未找到编译好的二进制部署包?

2020-12-22

想参与贡献,不知道该如何参与?

2020-12-21

DolphinScheduler里的监控页面里显示的Zookeeper数据全是-1,怎么破?

2020-12-15

上游依赖未成功,下游任务可以一直等待么?

2020-12-14

Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?

2020-12-08

哪里有关于 DolphinScheduler 的分享(PPT | 视频)?

2020-12-08

DolphinScheduler 官方公众号上有各种部署、使用及原理源码分析视频,欢迎关注

2020-12-04

想参与社区贡献,不知如何参与?

2020-12-04

DolphinScheduler支持mysql 8 作为数据库么?

2020-12-03

DolphinScheduler单机部署有教程么?

2020-11-30

在哪里下载DolphinScheduler安装包呢?

2020-11-27

为什么要参与开源贡献?

2020-11-27

Python 任务如何设置 Python 的版本?

2020-11-26

DolphinScheduler流程定义有几种启动方式

2020-11-26

DolphinScheduler的用户案例

2020-11-25

DolphinScheduler 主要能力体现在哪些方面?

2020-11-25

DolphinScheduler有多少家公司在生产上使用?

2020-11-25

DolphinScheduler系统支持哪些邮箱?

2020-11-23

DolphinScheduler 服务介绍及建议运行内存

2020-11-23

遇到问题,如何得到社区的帮助

2020-11-23

DolphinScheduler项目的官网地址是?

2020-11-23

如何参与DolphinScheduler社区?

2020-11-23

如何在线试用Demo?

2020-11-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除