自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Apache DolphinScheduler开源社区

新一代大数据任务调度 - Apache DolphinScheduler社区,致力于“解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程可直观感知”。已累计有IBM、腾讯、360、美团等 400+ 公司在生产上使用。

  • 博客(502)
  • 资源 (3)
  • 问答 (29)
  • 收藏
  • 关注

原创 Apache DolphinScheduler如何开启开机自启动功能?

Apache DolphinScheduler 是一个分布式、去中心化的大数据工作流调度系统,支持大数据任务调度。若要设置 DolphinScheduler 开机自启动,通常需要将其配置为系统服务。

2024-07-08 17:26:45 1046

原创 社区6月月报 | Apache DolphinScheduler重要修复和优化记录

各位热爱Apache DolphinScheduler的小伙伴们,社区6月月报更新啦!这里将记录Apache DolphinScheduler社区每月的重要更新,欢迎关注。

2024-07-08 17:24:39 809

原创 Apache DolphinScheduler 与 AWS 的 EMR/Redshift 集成实践分享

Redshift:用于数据仓库的解决方案。EMR:Hadoop生态圈的大数据处理组件。:任务调度工具。在大数据处理的下游,还包括BI(商业智能)、传统机器学习和最新的生成式AI,再往下是企业中的人、应用和设备。这张图展示了整个数据处理和分析的流程,使得数据处理过程更加直观和流畅。EMR与DolphinScheduler的实践Redshift与DolphinScheduler的实践在此之前,我们先对EMR做一个简要介绍。

2024-07-05 11:29:42 996

原创 海豚调度监控:新增依赖缺失巡检,上游改动再也不用担心了!

本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。祝开卷有益:)用过 DolphinScheduler 的小伙伴应该都知道,DolphinScheduler 的依赖任务是被动检测的,下游配置了上游的依赖,下游任务启动的时候,会检测上游任务是否成功,这个过程不是很复杂,但却是比较容易出问题的。

2024-07-04 15:02:07 475

原创 喜提一等奖!白鲸开源在“创业北京”创业创新大赛海淀区选拔赛决赛表现亮眼

6月25日,第七届“创业北京”创业创新大赛海淀区选拔赛决赛在中关村东升国际科学园成功举办。本次活动由海淀区人力资源和社会保障局、中关村科学城管委会主办,以“创响新时代 共圆中国梦”为主题,活动现场主体赛先进制造赛道和主体赛现代服务赛道共20个晋级决赛的项目进行了现场路演,共同角逐各赛道一、二、三等奖及优秀奖,评审专家、创投机构及创业创新项目等80余人现场参与。本次晋级决赛的项目中有赋能能源行业发展的高能量密度固态锂电池研发有专注生命健康的一站式脊柱健康解决方案也有致力于解决数据问题的。

2024-07-01 14:17:40 396

原创 Apache DolphinScheduler社区又一PMC获推选通过!

成为Committer后的一年里,他继续保持高涨的热情帮助社区复盘PR和问题,更是友好地为新贡献者提供指导。他为DolphinScheduler贡献了许多功能和错误修复,包括为资源中心引入更多存储插件,添加远程日志存储机制,添加项目级参数,为API-Server添加Metrics。我会继续保持热情,为社区做出更多的贡献。

2024-07-01 14:11:19 386

原创 2024年Apache DolphinScheduler 社区开源之夏活动中选公示

为了降低 DolphinScheduler 的运维难度,本项目将增加 Raft 注册插件,使 DolphinScheduler 不再依赖外部组件,利用 Raft 通讯协议实现 master 高可用以及 master 和 worker 之间的交流。

2024-06-27 16:28:50 926

原创 DolphinScheduler分布式集群部署指南(小白版)

摘自官网:Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2024-06-27 16:26:36 1052

原创 海豚调度调优 | 如何解决任务被禁用出现的Bug

问题1 在 2.0.3-release 中得到修复。问题2 在 3.0.5-release 中得到修复。如果不想升级的小伙伴,可以自行根据自己的版本,进行修改。2.x 版本,对应的代码文件是 WorkflowExecuteThread.java3.x 版本,对应的代码文件是 WorkflowExecuteRunnable.java。

2024-06-27 15:00:18 555

原创 白鲸开源中标人保集团2024年数据调度工具软件产品及服务采购项目

近日,北京白鲸开源科技有限公司成功中标中国人民保险集团(以下简称“中国人保”)2024年数据调度工具软件产品及服务采购项目。此举将为中国人保提供高性能、高可用性、高扩展性和高安全性的一站式数据调度管理方案,大力推进中国人民保险的业务发展,提升其数据管理和调度能力,加速其数字化转型进程。

2024-06-27 12:01:23 499

原创 WhaleStudio 2.6重磅发布!调度模块WhaleScheduler更新78项核心功能

我们很高兴地宣布WhaleStudio 2.6版本的正式发布!新版本中包含了数据调度模块WhaleScheduler和数据集成模块WhaleTunnel的百余项核心功能更新,本文摘选了WhaleScheduler常用功能更新的概况,关于WhaleTunnel的更新详情将于近期发布,欢迎关注!WhaleStudio中的调度模块WhaleScheduler作为一款全球领先的数据工作流调度系统,一直致力于为用户提供更加高效、便捷的功能。

2024-06-25 15:34:21 1043

原创 Dolphinscheduler Docker部署全攻略

作者| 陈逸飞Docker部署的目的是在容器中快速启动部署Apache Dolphinscheduler服务。

2024-06-25 14:44:14 916

原创 Apache DolphinScheduler & 亚马逊云科技联合Meetup: 基于云上的最佳实践

是一个云原生并带有强大可视化界面的大数据工作流调度平台,致力于让调度变得更加容易,已在 3000+家公司的生产环境上稳定运行。身为一款专门针对于大数据平台和大模型的工作调度系统,支持可视化的数据准备和大模型FineTune等功能。同时Apache DolphineScheduler还拥有十分活跃的社区与定期的交流会。亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。

2024-06-21 11:01:21 903

原创 海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)

祝开卷有益。本系列教程基于 DolphinScheduler 2.0.5 做的优化。

2024-06-21 10:53:00 728

原创 DataOps真能“降本增效”?

在各行各业中,越来越多的公司开始重视收集数据,并寻找创新方法来获得真实可行的商业成果,并且愿意投入大量时间和金钱来实现这一目标。据IDC称,数据和分析软件及云服务市场规模在 2021 年达到了 900 亿美元,随着企业继续对人工智能和机器学习 (AI/ML) 和现代数据计划进行投资,预计到 2026 年将增长一倍以上。然而,尽管投入了大量资金,数据项目往往收效甚微。麦肯锡最近对高级主要分析项目进行的一项调查发现,,而这些任务产生的增值作用有限。

2024-06-20 17:27:22 417

原创 DolphinScheduler日志乱码、worker日志太多磁盘报警、版本更新导致不兼容怎么办?

推荐使用shell替代其他任务节点类型,其他类型的任务插件本质上也是在执行shell或有等效的命令行,当然这要求开发人员对相关任务命令行的使用也提出了更高的要求,好处是用shell更灵活,更解耦和,自行权衡利弊使用。后,脚本中的命令执行报错后会立即退出(注意,该命令只对当前bash环境生效且无法继承,对执行脚本的子环境不生效)。或者配置worker组,只包含一个worker1,指定运行该工作流的worker组。可以在worker之间配置共享目录,如NFS,具体配置方式参考。任务插件的使用可以查看官方文档。

2024-06-18 16:06:43 592

原创 【运维技巧】海豚调度工作流实例卡在正在停止&任务实例卡在正在运行怎么办?

在大数据调度系统中,,大家可能会碰到任务实例状态更新不及时的情况。对于Apache DolphinScheduler用户来说,这可能意味着前端显示的任务状态与实际情况不一致,即使任务已经在后台停止运行,前端仍显示为“正在运行”。这种现象不仅影响,还可能导致后续任务调度出现问题。那么,当你遇到这种情况时,应该如何处理呢?本文将详细介绍这一现象及其解决方法,帮助你快速恢复系统的正常运行。

2024-06-13 16:36:57 600

原创 DophinScheduler 如何定期删除日志实例?

社区建议通过 open api的方式安全地删除工作流实例和任务实例,open api可以删除任务实例的运行日志。SQL 错误 [1701] [42000] 表示尝试截断(删除所有行)一个表,该表在其他表的外键约束中被引用。请注意,在执行这些操作之前,请确保您有足够的权限,并且了解这些操作对您的数据库的影响。在删除表的数据之前,您需要删除或禁用引用该表的外键约束。另外,如果您使用的是像 MySQL 这样的数据库,您也可以考虑使用。截断表后,如果您需要,可以重新添加外键约束。删除外键约束后,您现在可以截断表。

2024-06-12 11:18:48 302

原创 一文搞懂DevOps、DataOps、MLOps、AIOps:所有“Ops”的比较

引言近年来,“Ops”一词在 IT 运维领域的使用迅速增加。IT 运维正在向自动化过程转变,以改善客户交付。传统的应用程序开发采用 DevOps 实施持续集成(CI)和持续部署(CD)。但对于数据密集型的机器学习和人工智能(AI)应用,精确的交付和部署过程可能并不适用。本文将定义不同的“Ops”并解释以下几种:DevOps、DataOps、MLOps 和 AIOps 的工作原理。DevOps这一实践自动化了开发(Dev)和运营(Ops)之间的合作。主要目标是更快、更可靠地交付软件产品,并持续提供软件

2024-06-07 14:04:00 963

原创 【入门教程】5分钟教你快速学会集成Java springboot ~

Apache DolphinScheduler是一个分布式易扩展的开源分布式调度系统,支持海量数据处理,具有任务流程调度、任务流程编排、任务监控告警、工作流引擎等功能。本文将介绍如何将Apache DolphinScheduler集成到 Java Springboot 项目中,以实现更灵活和便捷的调度功能。通过以上步骤,我们成功集成了Apache DolphinScheduler到Java Springboot项目中,并实现了一个简单的调度任务。

2024-06-06 18:05:07 306

原创 【数智化人物展】白鲸开源CEO郭炜:大模型时代下DataOps驱动企业数智化升级

随着技术的不断进步,DataOps将继续演化,以适应新的数据处理挑战。多云集成、自动化治理、大模型支持等新兴趋势,将进一步推动DataOps的发展。同时,新技术如ZeroETL、DataFabric、数据虚拟化等,虽然在某些方面提供了替代方案,但在可预见的未来,DataOps仍将是企业数智化升级的核心驱动力,特别是在大模型的助力下,DataOps将更加智能化、自动化,成为企业数字化转型的重要支撑。在大模型时代,DataOps不仅是企业数智化升级的重要驱动力,也是企业保持竞争力的关键。

2024-06-04 15:10:11 1090

原创 高效启动DolphinScheduler工作流:Java URL调用详解

构建DolphinScheduler启动任务的URL使用Java中的URL类发送HTTP请求处理返回的JSON结果。

2024-06-04 15:02:47 704

原创 Apache DolphinScheduler 社区5月月报更新!

各位热爱 DolphinScheduler 的小伙伴们,社区5月份月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注,期待下个月你也登上Merge Star月度榜单哦~

2024-06-04 15:00:22 448

原创 好消息!DolphinScheduler官网集成LLM模型问答AI kapa.ai

kapa.ai是一个专门为开发者社区构建的AI支持机器人平台,主要优势在于其自动化的技术知识摄取,能够自动化地摄取各种技术源,确保知识库的更新,依赖于先进的领域特定检索和神经搜索引擎,可以精确地检索领域特定内容,并且专注于相关内容检索、提供引用和保持主题相关性,减少了不准确性。集成kapa.ai之后,社区用户可以点击Apache DolphinScheduler官网首页右下角的「Ask AI」模块,在接下来弹出的问答框输入自己的问题,即可利用kapa.ai提供的大模型支持,迅速得到想要的答案。

2024-05-28 15:46:26 389

原创 Dolphinscheduler不重启加载Oracle驱动

转载自刘茫茫看山。

2024-05-28 15:32:19 523

原创 Apache DolphinScheduler(2.x和3.x版本) 本地环境搭建教程一览

在迅速变化的技术领域,本地环境的搭建和调试对于软件开发的效率和效果至关重要。本文将详细介绍如何为Apache DolphinScheduler搭建一个高效的本地开发环境,包括2.x和3.x版本的设置方法。无论您是初学者还是有经验的开发者,本指南都将帮助您快速启动并运行,有效地进行本地代码调试。

2024-05-27 11:43:10 321

原创 构建无服务器数仓(三 )EMR Serverless 操作要点、优化以及开放集成测试

(1)解决了原有平台算力瓶颈问题,显著地提升了平台整体运行效率原有的最长的数据处理任务需要十几个小时才能完成。同样的任务在新平台上运行 2 – 3 个小时就可以完成)。原有的 hive@cdh 即便已经使用 spark 作为引擎,同样的 job 运行比新平台要慢不止 4-5 倍。(2)数据调度平台和数据处理引擎、数据存储介质完成了架构解耦,显著地提高了平台的健壮性和扩展性原有的平台,数据调度工具 DolphinScheduler,大数据集群的计算和存储都强耦合的运行在 CDH 集群上。

2024-05-23 17:54:14 842 2

原创 DolphinScheduler 3.3.0版本更新一览

DolphinScheduler是一个开源的项目,主要用来进行工作流编排、运行和管理。工作流是基本单位,所有的功能设计都是围绕工作流这是一个低代码平台,可以不用代码,或用少量的代码来完成工作流相关的工作不用数据迁移即可进行服务器节点的扩缩容采用插件化架构Apache DolphinScheduler 3.3.0版本带来了多项重要更新,增强了系统的稳定性、扩展性和易用性。我们鼓励社区成员积极参与,共同推动项目的发展。姓名:阮文俊。

2024-05-23 16:07:29 1276

原创 【最新】别再发邮件了,必须在开源之夏后台申请,50%的人竟然都没有报名成功!

所以,我们特此举办这次宣讲会,目的是向所有感兴趣的学生详细介绍Apache DolphinScheduler社区在开源之夏中提供的项目,并且解答学生朋友的疑惑,我们的导师们将会分享他们的知识和经验,深入解释他们的项目,并讨论这些项目在实际应用中的技术挑战和创新。加入我们,与全球开发者一起成长,用代码书写改变世界的旅程。会议时间:2024/05/20 22:00-23:00 (GMT+08:00) 中国标准时间 - 北京。日期与时间:2024年5月22日,星期三,22:00 - 23:00。

2024-05-21 12:41:04 231

原创 别再发邮件了,必须在开源之夏后台申请,50%的人竟然都没有报名成功!

所以,我们特此举办这次宣讲会,目的是向所有感兴趣的学生详细介绍Apache DolphinScheduler社区在开源之夏中提供的项目,并且解答学生朋友的疑惑,我们的导师们将会分享他们的知识和经验,深入解释他们的项目,并讨论这些项目在实际应用中的技术挑战和创新。加入我们,与全球开发者一起成长,用代码书写改变世界的旅程。会议时间:2024/05/20 22:00-23:00 (GMT+08:00) 中国标准时间 - 北京。日期与时间:2024年5月22日,星期三,22:00 - 23:00。

2024-05-20 14:15:04 357

原创 白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

同时,WhaleStudio支持传统数据仓库Teradata,Greenplum,Oracle Datawarehouse Edition,DB2 Enterpirse Edition,以及开源的数据湖Hudi,Iceberg等,让企业用户实现数据湖、数据仓库、云的一体化调度。在大会的圆桌论坛环节中,郭炜参与了题为《AI时代下—数据的变与不变》的讨论,并分享了自己对于数据在人工智能时代中角色变化的深刻见解:“AI对于数据治理领域将有较大冲击,高质量数据+高质量的解释及标注是企业数据治理的关键。

2024-05-16 10:27:58 403

原创 企业大模型如何成为自己数据的“百科全书”?

大数据和大模型为企业提供了前所未有的数据处理能力和洞察力。通过有效的数据架构设计、大模型集成、实时与批量数据处理以及数据同步,企业可以更好地利用其数据资源,提升运营效率,并在竞争激烈的市场中保持领先。Apache SeaTunnel和WhaleStudio作为企业数据高速公路,帮助快速对接企业内部数据,实现数据的向量化和“百科全书化”。

2024-05-15 17:54:54 532

原创 每天Get一个小技巧:用DolphinScheduler实现隔几天调度

转载自tuoluzhe8521这篇小短文将教会你如何使用Apache DolphinScheduler实现隔几天调度,有此需求的小伙伴学起来!

2024-05-15 17:43:52 374

原创 高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建

转载自tuoluzhe8521导读:通过简化复杂的任务依赖关系, DolphinScheduler为数据工程师提供了强大的工作流程管理和调度能力。在3.2.0版本中,DolphinScheduler带来了一系列新功能和改进,使其在生产环境中的稳定性和可用性得到了显著提升。

2024-05-15 17:37:37 554

原创 构建无服务器数仓(二)Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析

Apache DolphinScheduler 作为大数据作业调度工具在华人开发者中非常流行。然而,其原生部署环境在 hadoop 上的现状和亚马逊云科技持续创新的新一代 Serverless 架构的产品服务之间存在一些 gap。本文结合实战总结了填补这些 gap 的方法,并探讨了通过打 Tag 的方式实现 LOB 粒度资源消费数据统计及可视化的方法。本文由白鲸开源科技提供发布支持!

2024-05-11 13:32:06 1163 1

原创 Apache DolphinScheduler 3.3.0 版本重磅更新提前看!

活动时间:2024年5月21日 下午2-2:30活动形式:线上直播活动主题:Apache DolphinScheduler 3.3.0版本发布预告。

2024-05-08 16:32:12 328

原创 Apache DolphinScheduler 4月简报:社区发展与技术革新速递

各位热爱 DolphinScheduler 的小伙伴们,4 月份的 DolphinScheduler 社区月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注!

2024-05-08 15:33:37 761

原创 2024年DataOps趋势预测:AI不会取代数据工程师

APM digest收集了多位行业专家对DataOps在2024的发展形势及对IT和业务的影响的预测,这些技术最高管理者,包括Confluent技术战略负责人Andrew Sellers的深刻洞见可能与你的感觉一致吗?快来探讨一下。

2024-04-30 11:41:05 730

原创 Apache DolphinScheduler支持Flink吗?

随着大数据技术的快速发展,很多企业开始将Flink引入到生产环境中,以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台,Apache DolphinScheduler也跟上了时代步伐,推出了对Flink任务类型的支持。Flink是一个开源的分布式流处理框架,具有高吞吐量、低延迟和准确性等特点,广泛应用于实时数据分析、机器学习等场景。通过DolphinScheduler的Flink任务类型,用户可以轻松地将Flink作业纳入到整个数据调度流程中,大大提高了数据处理的效率和可靠性。

2024-04-30 11:34:51 1247 3

原创 利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库

金融科技客户非常注重数据安全和合规。为规避潜在的风险,本案例所涉及的客户的做法是将用户的出入金数据、用户的基础数据(统称为业务数据)放在 IDC,而用户的行为数据以及脱敏之后的业务数据放在云马逊云科技平台中。从亚马逊云科技所服务的全球范围内的 FSI 行业客户看,越来越多的金融科技公司选择将业务数据也存放在亚马逊云科技平台上。亚马逊云科技为客户提供的云平台及服务在安全和合规方面积累了非常丰富的认证,包括平台整体认证、适配所在国家/地区监管法规的认证、行业认证等等;

2024-04-25 13:05:24 1093

Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx

新一代开源大数据任务调度 Apache DolphinScheduler 如何高效支撑企业大数据核心业务

2020-11-30

新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap

DolphinScheduler 介绍 DolphinScheduler 应用案例 1.3.3 新版本发布 近期 Roadmap 参与开源

2020-11-24

开源时代

2021-03-31

Apache DolphinScheduler的全球交流工具是?

2021-01-28

DolphinScheduler Docker 镜像仓库在?

2021-01-26

工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?

2021-01-04

欢迎大家来社区提问哈,看看遇到了什么问题?

2020-12-31

使用 mvn clean package -Prelease 编译后并未找到编译好的二进制部署包?

2020-12-22

想参与贡献,不知道该如何参与?

2020-12-21

DolphinScheduler里的监控页面里显示的Zookeeper数据全是-1,怎么破?

2020-12-15

上游依赖未成功,下游任务可以一直等待么?

2020-12-14

Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?

2020-12-08

哪里有关于 DolphinScheduler 的分享(PPT | 视频)?

2020-12-08

DolphinScheduler 官方公众号上有各种部署、使用及原理源码分析视频,欢迎关注

2020-12-04

想参与社区贡献,不知如何参与?

2020-12-04

DolphinScheduler支持mysql 8 作为数据库么?

2020-12-03

DolphinScheduler单机部署有教程么?

2020-11-30

在哪里下载DolphinScheduler安装包呢?

2020-11-27

为什么要参与开源贡献?

2020-11-27

Python 任务如何设置 Python 的版本?

2020-11-26

DolphinScheduler流程定义有几种启动方式

2020-11-26

DolphinScheduler的用户案例

2020-11-25

DolphinScheduler 主要能力体现在哪些方面?

2020-11-25

DolphinScheduler有多少家公司在生产上使用?

2020-11-25

DolphinScheduler系统支持哪些邮箱?

2020-11-23

DolphinScheduler 服务介绍及建议运行内存

2020-11-23

遇到问题,如何得到社区的帮助

2020-11-23

DolphinScheduler项目的官网地址是?

2020-11-23

如何参与DolphinScheduler社区?

2020-11-23

如何在线试用Demo?

2020-11-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除