- 博客(369)
- 资源 (3)
- 问答 (29)
- 收藏
- 关注

原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践
Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...
2022-06-16 18:00:04
601

原创 金融任务实例实时、离线跑批,Apache DolphinScheduler 在新网银行的三大应用场景与五大优化...
在新网银行,每天都有大量的任务实例产生,其中实时任务占据多数。为了更好地处理任务实例,新网银行在综合考虑之后,选择使用 Apache DolphinScheduler 来完成这项挑战。如今,新网银行多个项目已经完成了实时与准实时的跑批,指标管理系统的离线跑批,应用于离线数据开发和任务调度、准实时数据开发和任务调度,以及其他非 ETL 用户定义数据跑批三类场景中。为了更好地...
2022-05-16 18:00:22
828

转载 DolphinScheduler 源码剖析之 Master 容错处理流程
点击上方蓝字关注ApacheDolphinSchedulerApacheDolphinScheduler(incubating),简称”DS”,中文名“海豚调度”(海豚聪明、人...
2020-11-18 21:00:00
1490
原创 Apache DolphinScheduler 开源之夏采访:苏国伟的开源之旅
大家好,我是苏国伟,来自西安电子科技大学软件工程专业。我在实验室中主要从事数据集成等方面的工作。除了编程,我还热衷于踢足球、观看球赛和健身,这些爱好让我的生活更加丰富多彩。
2023-11-30 17:11:15
158
1
原创 Apache DolphinScheduler 3.0.0 升级到 3.1.8 教程
安装部署的流程可参考官网的文档本文开始之前,我先补充说明一下升级 Apache DolphinScheduler 的几个关键点。
2023-11-21 18:22:21
658
原创 Apache DolphinScheduler在通信行业的多集群统一建设与管理实践
为什么我们考虑构建统一的调度平台?主要原因是:我们公司的大数据中心目前拥有七个大数据集群,这些集群分布在不同的机房,例如内蒙、南京、苏州和广州。而且,这些机房之间的网络并不互通。如果每个集群都独立部署调度系统,将会有多套调度服务管理入口,这对于运维和开发者,无论维护和使用上来说都非常不便。因此,我们决定构建一个统一调度平台,集中管理多个集群的调度任务,也为我们后续深度平台集成提供契机。
2023-11-17 10:11:31
581
原创 Apache DolphinScheduler如何完全设置东八区?
默认情况为了兼容全世界不同时区,Apache DolphinScheduler 使用的是 UTC 0 时区,包括保存到数据库表中的数据时区,以及展示到页面上的时区。如果我们想在页面上看到东八区时间,则需要在页面上手动选择上海时区,如下图所示:这样选择之后,虽然页面上显示的时间是对的,但是具体单个任务中的日志时间依然是 0 时区,而且底层表中所有数据的时间也是 0 时区。如果想要页面上显示的时间是东八区,而且任务日志中的时区也是东八区,并且表中保存的数据时间也是东八区,则需要修改如下几个地方的设置
2023-11-09 16:52:20
664
原创 Apache DolphinScheduler PMC代立冬荣获中关村U30青年创业者荣誉
北京,[2023年11月3日] — 在中关村举行的U30年度优胜者见面交流会上,白鲸开源科技的联合创始人代立冬先生荣幸被选为年度优胜者之一。这是对代先生及白鲸开源科技在云原生DataOps平台领域创新成就的高度认可。中关村U30是由中国科协科学技术传播中心、共青团北京市委员会、北京市科委、中关村管委会、海淀区政府共同主办的活动,旨在表彰35岁以下的青年创业者在高精尖产业的突出贡献。今年的活动聚集了来自生物医药、人工智能、新材料、智能制造、芯片、新一代信息技术等战略性新兴领域的30位年度优胜者。
2023-11-08 10:23:52
65
原创 Apache Dolphinscheduler如何不重启解决Master服务死循环
5.从上面被红框圈出来的关键处代理,我们可以梳理出一个基本的master服务处理工作流的一个事件流程,工作流的线程类(WorkflowExecuteRunnable)被放到缓存中,缓存的key是工作流实例的ID,同时每一个工作流都有对应的事件,事件中存储工作流实例的ID,每次执行事件时都会从缓存中获取线程类,当线程类执行失败时便重新创建一个事件加入事件队列中执行,依次往复,除非缓存中的数据被清除了,才会结束循环。近期在跟社区的沟通中,最新3.2.0版本,该问题已经得到解决!7.ognl表达式参考这个链接。
2023-10-31 12:22:00
524
原创 大数据调度最佳实践 | 从Airflow迁移到Apache DolphinScheduler
Air2phin 是一个基于规则的 AST 转换器,提供了从 Airflow dag 文件转成 pydolphinscheudler 定义文件的功能。其使用 LibCST 解析和转换 Python 代码,并使用 Yaml 文件定义转换规则。他是一个协助用户完成转化的工具,并非是一键转化工具。大部分 Airflow 的用户都会自定义部分 operator,想要转化这部分的 operator 需要用户自定义规则,幸运的 Air2phin 的规则是基于 YAML 文件的,意味用户可以较为简单的新增规则。
2023-10-25 16:14:27
695
原创 用户案例 | 珍岛集团基于 Apache DolphinScheduler 打造智能营销云平台
背景:Apache DolphinScheduler 默认的邮件消息格式过于死板,对于客户来说不够友好。解决方案:对于用户来说,用户是看不懂源生Apache DolphinScheduler的邮件的,我们将Apache DolphinScheduler 以及业务中的一些参数交给用户,使得用户能够自定义邮件内容,业务数据相关的占位符由业务解析,解析完成之后将数据再移交给Apache DolphinScheduler,Apache DolphinScheduler再接着处理和自身相关的占位符变量。
2023-10-24 11:38:49
467
原创 深入浅出Apache SeaTunnel SQL Server Sink Connector
在大数据时代,数据的迁移和流动已经变得日益重要。为了使数据能够更加高效地从一个源流向另一个目标,我们需要可靠、高效和易于配置的工具。今天,我们将介绍 JDBC SQL Server Sink Connector,这是一个专为 SQL Server 设计的连接器,能够确保数据的精准、高效传输。不仅如此,它还支持多种流处理引擎,例如 Spark、Flink 和 SeatTunnel Zeta。无论您是初学者还是有经验的开发者,本文都将为您提供关于如何最大限度地利用此连接器的深入见解。
2023-10-23 21:01:16
394
原创 Apache DolphinScheduler 官方发布3.2.0版本!大数据调度【重磅更新】
今天,Apache DolphinScheduler 3.2.0 版本在万众期待中终于发布了!在之前的预告中,包括,以及《文章汇总已经大致覆盖了 3.2.0 版本的全新功能和优化。现在,来看看新版本的全新“样貌”吧!
2023-10-17 17:36:31
666
原创 WhaleStudio 分钟级构建 AI 模型,强大 Ops 能力简化模型调度与部署
机器学习(ML)是人工智能(AI)的一个子集,通过算法发现数据中的通用模式,并根据持续不断的训练来优化调整最终结果。ML模型从过去的经验中学习,并根据已有的经验进行预测。例如,现在的电商已不再会使用普遍性降价或优惠券等手段吸引客户,取而代之的是根据每个客户的历史购买模式构建个性化优惠,并将这些数据与客户PII信息,网络搜索、当前地理位置、移动应用程序中的活动等实时信息相结合。这样,就可以构建ML模型来预测客户购买特定产品的倾向。
2023-09-27 10:47:37
116
原创 生态兼容性进一步提升!白鲸开源 WhaleStudio 与火山引擎ByteHouse完成产品互认
目前,WhaleStudio 支持公有云、私有云和混合云,已与 AWS、阿里云、华为云等国内外头部云厂商达成合作,全面支持云原生,帮助企业更好地适应大数据和云原生大时代下的数据处理与治理,同时支持传统数据仓库 Teradata,Greenplum,Oracle Datawarehouse Edition,DB2 Enterpirse Edition,支持开源的数据湖 Hudi,Iceberg 等,让企业用户实现数据湖、数据仓库、云的一体化调度,其企业级方案已被众多知名政企采用。
2023-09-27 10:46:06
1703
原创 Apache DolphinScheduler在中国信通院“2023 OSCAR开源尖峰案例”评选中荣获「尖峰开源项目奖」!
随着大数据技术的不断发展,工作流管理变得越来越重要,而 Apache DolphinScheduler 提供了一个开源、强大、可靠的解决方案。在近日由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR 开源产业大会”上,主办方公布了 2023 年“OSCAR 开源尖峰案例”评选结果,包括“开源人物”“开源项目”“开源社区”“开源企业”“开源技术创新”五个领域,旨在表彰优秀开源案例,树立开源典范。
2023-09-26 10:38:24
770
原创 Apache DolphinScheduler 在奇富科技的首个调度异地部署实践
图片奇富科技(原360数科)是人工智能驱动的信贷科技服务平台,秉承“始于安全、 恒于科技”的初心,凭借智能服务、AI研究及应用、安全科技,赋能金融机构提质增效,助推普惠金融高质量发展,让更多人享受到安全便捷的金融科技服务,助力实现共同富裕。作为国内领先的信贷科技服务品牌,累计注册用户数2亿多。刘坤元奇富科技数据平台部大数据开发工程师,19年入职奇富科技,目前负责大数据任务调度系统开发和任务治理工作。王洁奇富科技数据平台部大数据开发工程师,19年入职奇富科技,目前负责大数据任务调度系统开发工作。
2023-09-26 10:32:15
710
1
原创 生成式 AI:机会与风险并存,企业该如何取舍?
作者 | 李晨编辑 | Debra ChenGartner最近对全球2,500名高管进行的一项调查发现,近一半(45%)的人表示,ChatGPT的宣传促使他们增加人工智能(AI)投资。调查报告称,70%的高管表示他们正在调查人工智能的使用,而19%的高管正在试点或已经在生产中部署人工智能。Gartner发现,大量组织正在使用ChatGPT等生成式AI来改进宣传内容或者生成代码。这种技术可以增强使用者的能力,并可以自主执行业务和IT流程,生成式AI可以潜在地取代或补充多项工作任务。
2023-09-21 15:58:38
218
原创 如何快速在 Apache DolphinScheduler 新扩展一个任务插件?
SPI 是 Service Provider Interface 的缩写,是一种常见的服务提供发现机制,比如知名的 OLAP 引擎 Presto 也是使用 SPI 来扩展的。在 java.util.ServiceLoader 的文档里有比较详细的介绍,其抽象的概念是指动态加载某个服务实现。比如 java.sql.Driver 接口,不同厂商可以针对同一接口做出不同的实现,比如 MySQL 和 PostgreSQL 都有不同的实现提供给用户,而 Java 的 SPI 机制可以为某个接口寻找服务实现。
2023-09-21 15:52:19
126
原创 白鲸开源 X SelectDB 金融大数据联合解决方案公布!从源头解决大数据开发挑战
SelectDB 是飞轮科技基于 Apache Doris 打造的新一代实时数据仓库,面向不同行业提供通用的端到端实时大数据分析解决方案,帮助企业轻松构建起 T+0 的实时大数据分析流程。目前,飞轮科技已推出 SelectDB Cloud 和 SelectDB Enterprise 两款企业级产品,能够差异化地满足云上开箱即用、私有化部署和自主可控的不同需求。提供从数据流、各类数据库、数据湖外表等异构数据源的毫秒级实时数据导入和集成能力;实时插入/更新/删除的数据更新能力,高效实现秒级别的小批量实时写入。
2023-09-13 10:34:31
390
原创 Apache DolphinScheduler 如何实现自动化打包+单机/集群部署?
Apache DolphinScheduler 是一款开源的分布式任务调度系统,旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler 支持多种任务类型,可以在单机或集群环境下运行。下面将介绍如何实现 DolphinScheduler 的自动化打包和单机/集群部署。
2023-09-12 18:54:08
582
原创 用户案例 | 蜀海供应链基于 Apache DolphinScheduler 的数据表血缘探索与跨大版本升级经验
杜全,蜀海供应链大数据工程师,参与蜀海大数据平台和数据中台建设。领导驾驶舱:提供给高层领导查看的数据准实时分析,T+1经营分析、产品毛利类、市场价格等报表财务:各类日报、月报、年度报表;对账、毛利报表、指标表等客户销售:客户采销类实时报表、日报、月报各个维度的数据分析及查询销售明细数据供应商类:采购分析、询价报表、供应商等级、供应商工作台、供应商对账分析,采购策略优化等仓储:库存周转、库位、实时库存等各种维度数据指标及报表需求物流运输类:准点率、温控、运输成本,调度等分析。
2023-09-06 11:22:35
818
原创 国内某头部理财服务提供商基于白鲸调度系统建立统一调度和监控运维
国内某头部理财服务提供商,为投资者提供了丰富的投资产品,为客户创造了丰厚的投资回报。本文由白鲸开源科技提供发布支持!
2023-09-06 10:54:56
192
原创 白鲸开源 DataOps 平台加速数据分析和大模型构建
数据准备是清理、标准化和丰富原始数据的过程。这使数据准备好应用于高级分析和数据科学用例。数据提取数据清洗数据标准化数据对外服务大规模编排数据同步工作流除了耗时的数据准备步骤外,数据工程师还需要清理和规范化基础数据,否则,他们将无法理解要分析的数据的上下文,因此通常使用小批量的Excel数据来实现此目的。但这些数据工具有其局限性,首先,Excel无法容纳大型数据集,也不允许您操作数据,更无法为企业流提供可靠的元数据。准备数据集的过程可能需要数周到数月才能完成。
2023-08-31 10:17:19
1147
原创 实操教程 | 触发器实现 Apache DolphinScheduler 失败钉钉自动告警
在实际应用中,我们经常需要将特定的任务通知给特定的人,虽然 Apache DolphinScheduler 在安全中心提供了告警组和告警实例,但是配置起来相对复杂,并且还需要在定时调度时指定告警组。通过这篇文章,你将学到一个简单的方法,无需任何配置,只需要在用户表(t_ds_user)表中增加字段钉钉名称(dignding_name),创建用户时指定用户的手机号码和维护对应的钉钉名称,就能轻松实现 Apache DolphinScheduler 任务失败时钉钉告警到指定的人。
2023-08-28 19:26:24
725
原创 3.2.0 终极预告!云原生支持新增 Spark on k8S 支持
视频贡献者 | 王维饶视频制作者 | 聂同学编辑整理 | Debra ChenApache DolphinScheduler 3.2.0 版本将发布,为了让大家提前了解到此版本更新的主要内容,我们已经制作了几期视频和内容做了大致介绍,包括今天,我们来介绍另一个用户也很关注的云原生相关功能更新。
2023-08-28 19:02:38
649
原创 Apache DolphinScheduler 支持使用 OceanBase 作为元数据库啦!
DolphinScheduler本身是一个非常强大的分布式调度系统,它可以帮助您轻松管理和调度大规模的数据任务。而当它与OceanBase结合使用时,它可以为您提供更具弹性、更安全、更可靠的数据存储方式。这种组合可以帮助您更好地解决大规模数据任务管理和调度的问题,同时提高您的工作效率和任务应用的可靠性。因此,如果您正在使用DolphinScheduler来管理和调度数据任务,强烈建议您尝试使用OceanBase作为其元数据库,让您的任务应用变得更加高效和可靠。本文由白鲸开源科技提供发布支持!
2023-08-17 18:02:14
1325
原创 3.2.0 版本预告!远程日志解决 Worker 故障获取不到日志的问题
Apache DolphinScheduler 3.2.0 版本已经呼之欲出,8 月 中下旬,这个大版本就要和用户见面了。为了让大家提前了解到此版本更新的主要内容,我们已经制作了几期视频和内容做了大致介绍,包括。今天,我们来介绍另一个用户比较关心的新功能——Remote logging(远程日志),看看是否能帮助你的工作变得更简单吧!今天由为大家介绍 Apache DolphinScheduler 3.2.0 的一个新特性,叫做 Remote logging。
2023-08-17 17:44:11
197
原创 金融科技与现代开源技术结合的进展超前到你无法想象!
想要了解最新的金融科技进展吗?渴望与其他技术爱好者交流,并扩展您在金融科技行业中的人脉关系吗?那么请参加我们即将举行的 Meetup,本次活动由 Apache DolphinScheduler 社区和 OceanBase 技术社区共同举办,聚焦金融科技进展,线上&线下同步,欢迎关注并预约直播。在新加坡的朋友也可以赴线下活动现场,与行业大佬和同行交流切磋~
2023-08-09 18:18:30
147
原创 Apache DolphinScheduler 3.1.8 版本发布,修复 SeaTunnel 相关 Bug
近日,Apache DolphinScheduler 发布了 3.1.8 版本。此版本主要基于 3.1.7 版本进行了 bug 修复,共计修复 16 个 bug, 1 个 doc, 2 个 chore。
2023-08-09 17:11:02
1115
原创 3.2.0 版本预告!Apache DolphinScheduler API 增强相关功能
API 触发工作流运行可以获得instance ID增加了部分 Restful API,包括 taskInstance、workflow state、workflowInstance、workflow and schedule、task relation⏰0:00-00:48 DolphinScheduler 3.2.0 API 增强新功能1:在触发工作流定义之后通过一个ID获取工作流实例的运行状态⏰00:48-1:45 用Postman演示如何通过ID获取工作流实例的运行状态。
2023-08-03 18:37:32
566
原创 如何用 Apache DolphinScheduler 实现自动配置自定义变量?
在实际工作应用中,我们可能需要在整个 Apache DolphinScheduler 层面定义共用的日期变量,但是,开源版 Apache DolphinScheduler 只允许配置工作流级别的全局变量,这样,每个工作流就得配置相同的变量,操作起来重复并且麻烦。通过这篇文章,只需要将海豚调度级别的变量插入到变量表中,就会在保存工作流的时候将变量表中的变量自动配置。prop varchar(63) primary key --参数名,prop_def text --参数定义。
2023-08-03 18:23:33
394
原创 WhaleScheduler 2.4.5 版本重磅发布!WhaleGPT 赋能企业私有化模型训练
重点一览:随着现代数据技术体系的发展,数据驱动已经成为企业管理不可或缺的一部分,数据遍布在企业内部的每一个角落。每个企业积累的海量的大数据,但真正发挥效能的数据微乎其微,形成了大量的“沉睡”数据。而企业内部的数据用户,从数据分析师到市场营销人员再到销售人员,每个员工现在都在使用数驱动业务,形成新的数据用户社区(Data Community)。一方面,海量的数据在沉睡,另一方面,大量用户需求涌现,如今不足的数据计算资源和 BI 团队人力资源对这些不断增长的期望不堪重负。
2023-07-26 15:14:20
147
原创 使用 Apache DolphinScheduler 进行 EMR 任务调度
随着企业规模的扩大,业务数据的激增,我们会使用 Hadoop/Spark 框架来处理大量数据的 ETL/聚合分析作业,⽽这些作业将需要由统一的作业调度平台去定时调度。在 Amazon EMR 中,可以使用 AWS 提供 Step Function,托管 AirFlow,以及 Apache Oozie 或 Azkaban 进行作业的调用。
2023-07-26 14:47:45
231
原创 新晋 Committer!来自复旦大学的帅哥一枚
姓名:王维饶职位:复旦大学研究生在读感兴趣领域:平时在实验室会做一些偏系统和调度方向的研究。兴趣爱好:足球、羽毛球。
2023-07-19 17:48:24
782
原创 用户案例 | Apache DolphinScheduler 离线调度在自如多业务场景下的应用与实践
陈卓宇,自如大数据平台运维,负责自如离线数据调度,Apache StreamPark PPMC,Apache DolphinScheduler Contributor。
2023-07-13 18:13:18
320
原创 重磅预告!Apache DolphinScheduler 3.2.0 新功能“剧透”
近期,Apache DolphinScheduler 将迎来 3.2.0 版本的到来。本次发版为大版本发布,将会带来众多大家期待已久的新功能和新改进。为了让用户提前感知到新版本的变化,社区特意提前“剧透”新版本的重要 feature,并制作了视频进行介绍。
2023-07-13 17:51:40
287
原创 WhaleStudio 完成与涛思数据 TDengine 产品相互兼容性测试认证
近日,WhaleStudio 与涛思数据 TDengine 产品已完成相互兼容性测试认证。白鲸开源与涛思数据的联合测试结果显示,Whalestudio 平台与涛思数据 TDengine 产品双方产品完全兼容,整体运行稳定高效。WhaleStudio 是白鲸开源科技根据全球领先的 DataOps 理念打造的新一代数据集成调度工具,它由两大核心组件组成,WhaleScheduler 与 WhaleTunnel,将全球领先的调度开发组件与数据集成组件集成在一起提供给用户全球领先的完整解决方案。
2023-07-07 15:40:29
360
Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx
2020-11-30
新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap
2020-11-24
开源时代
2021-03-31
Apache DolphinScheduler的全球交流工具是?
2021-01-28
DolphinScheduler Docker 镜像仓库在?
2021-01-26
工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?
2021-01-04
欢迎大家来社区提问哈,看看遇到了什么问题?
2020-12-31
想参与贡献,不知道该如何参与?
2020-12-21
上游依赖未成功,下游任务可以一直等待么?
2020-12-14
Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?
2020-12-08
哪里有关于 DolphinScheduler 的分享(PPT | 视频)?
2020-12-08
想参与社区贡献,不知如何参与?
2020-12-04
DolphinScheduler支持mysql 8 作为数据库么?
2020-12-03
DolphinScheduler单机部署有教程么?
2020-11-30
在哪里下载DolphinScheduler安装包呢?
2020-11-27
为什么要参与开源贡献?
2020-11-27
Python 任务如何设置 Python 的版本?
2020-11-26
DolphinScheduler流程定义有几种启动方式
2020-11-26
DolphinScheduler的用户案例
2020-11-25
DolphinScheduler 主要能力体现在哪些方面?
2020-11-25
DolphinScheduler有多少家公司在生产上使用?
2020-11-25
DolphinScheduler系统支持哪些邮箱?
2020-11-23
DolphinScheduler 服务介绍及建议运行内存
2020-11-23
遇到问题,如何得到社区的帮助
2020-11-23
DolphinScheduler项目的官网地址是?
2020-11-23
如何参与DolphinScheduler社区?
2020-11-23
如何在线试用Demo?
2020-11-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人