代立冬-CSDN博客

原创大数据工作流任务调度--有向无环图(DAG)之拓扑排序

拓扑排序(Topological Sorting)维基百科上拓扑排序的定义为:对于任何有向无环图(DAG)而言，其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V，若存在一条有向边从U指向V，则在拓扑排序中U一定出现在V前面。通俗来讲：拓扑排序是一个有向无环图(DAG)的所有顶点的线性序列, 该序列必须满足两个...

2019-01-20 22:47:02 7157 2

原创 Apache SeaTunnel 3 分钟入门指南

新一代分布式超高性能云原生数据同步工具 - Apache SeaTunnel 已经在B站、腾讯云、字节等数百家公司使用。SeaTunnel 是 Apache 软件基金会下的一个高性能开源大数据集成工具，为数据集成场景提供灵活易用、易扩展并支持千亿级数据集成的解决方案。SeaTunnel 可以选择 SeaTunnel Zeta [1] 引擎上运行，也可以选择在 Apache Flink 或 Spark 引擎上运行。Seaunnel 为实时(CDC)和批量数据提供高性能数据同步能力。

2023-04-26 17:15:47 1422 2

原创企业数字化转型：数据集成是成功的关键

来访问不同数据源，不需要对不同来源的数据源进行架构调整，另外对数据安全性要求较高的企业，不允许对数据进行复制的场景下，数据虚拟化是很好的解决方案。但数据虚拟化有以下待解决问题：无法解决性能和数据质量问题，随着企业数据量的不断增大，性能问题是所有数据集成都面临的问题，由于设计思路的缺陷，数据虚拟化在这方面虽有快速进展，但也无法和一些数据集成技术相比。这在极大程度上降低了数据集成任务管理的困难。甚至更多的工作是和数据集成相关，数据集成有广泛的含义，包括数据清洗、数据抽取、数据转换、数据同步。

2022-12-18 15:18:39 660

原创 Apache DolphinScheduler 3.0 正式版重磅发布

点亮 ⭐️ Star · 照亮开源之路**GitHub:**https://github.com/apache/dolphinscheduler版本发布2022/8/102022 年 8 月 10 日，Apache DolphinScheduler 在经过 3.0.0 alpha、3.0.0-beta-1、3.0.0-beta-2 不断验证之后，终于迎来了社区期盼已久的第三个大版本！3.0.0 正式版本发生了自发版以来的最大幅度变动，新增了众多全新功能和特性，旨在为用户带来全新的体验和更多价值。...

2022-08-12 21:14:34 608

转载 Apache 官宣，正式成为 Apache Member 一员

Apache 官宣了，正式成为 Apache Member 一员

2022-04-07 09:51:17 388

原创 Apache DolphinScheduler 在叽里呱啦的实战经验

作者简介：wade，叽里呱啦攻城狮一枚，曾就职于苏宁，同花顺等，9个月大粿粿的爸爸。前言 “工欲善其事，必先利其器” 在2019年进行数仓建设时，选择一款易用、方便、高效的调度系统被摆在非常突出的位置，感谢前同事马振洋同学和杨孟霏同学的付出，最终有缘选择了DolphinScheduler的前身EasyScheduler (后面使用ES代替)，版本为1.1，差不多成了第一批在生产上使用海豚调度产品的吃瓜群众，同时我们也在密切关注社区的变化，并成功...

2021-06-24 19:30:03 2600 3

原创花一分钟体验大数据任务调度系统 - Apache DolphinScheduler 第一个官方 Docker 镜像

新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在近期发布了其第一个官方 Docker 镜像。下面就带大家来快速试用 DolphinScheduler官方推荐以 docker-compose 的方式启动，这种方式需要先安装 docker-compose , docker-compose 的安装网上已经有非常多的资料，请自行安装即可。1、下载源码 zip 包- 请下载最新版本的源码包并进行解压# 创建源码存放目录mkdir -p /opt...

2021-01-20 08:11:51 1261 1

原创新一代大数据任务调度系统 - Apache DolphinScheduler 1.3.4 发布，推荐下载

|本文编辑：朱桐新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在经过社区 30 多位小伙伴的贡献与努力下于发布了 1.3.4 版本，1.3.4 作为 1.3.x 的 bug 修复版本，本次共修复了 1.3.3 发现的 10 多处 bug，其中多数 bug 是测试伙伴在极端环境下发现的。1.3.4 重要的修复需要关注下面这个：1个重要修复现象：任务实例(taskInstance)状态更改错误：[#4084][server] fix tas...

2021-01-06 21:38:02 771 2

转载【喜讯】Apache DolphinScheduler 荣获 “2020 年度十大开源新锐项目”

经 10000+ 开发者公开票选，20+专家评审、10+ 主编团打分，历经数月打磨，11 月 19 日，由InfoQ 发起并组织的【2020中国技术力量年度榜单评选】结果正式揭晓。2020 年度十大开源新锐项目、2020 年度十大开源杰出贡献人物、2020 年度十大云原生创新技术方案以及 2020 年度十大云原生行业落地典范四大榜单，其中 2020 年度十大开源新锐项目囊括了最近三年内，开源领域活跃度最高、最具创新性和发展潜质的项目，年度开源新锐项目评选受欢迎程度更是成为四大榜单之最。Apa...

2020-11-22 17:17:31 724

原创成为 Apache 贡献者，So easy！

1 缘起大概是今年4月份的时候，忽然间看到ShardingSphere毕业的消息，其中也顺带提到了我们的主角DolpshinScheduler,于是去Github看了看，堆积的PR不多，在Apache孵化器中的JAVA项目中活跃度居然排行第一！对于我来讲，活跃度是我判断社区是否能够长久发展的一个很重要的因素，也是决定我是否要参与到贡献中来的一个点，我参与的apache项目也是有好几个了，也有遇到过那种PR堆积特别多，提交了PR长久没人review，...

2020-10-19 10:23:40 884 4

原创【安全通报】DolphinScheduler 漏洞情况说明及处理

Apache DolphinScheduler 社区邮件列表最近通告了 2 个漏洞，考虑到有很多用户并未订阅此邮件列表，我们特地在此进行情况说明：CVE-2020-11974[1]漏洞 (CVE-2020-11974[1]) 是与 mysql connectorj 远程执⾏代码漏洞有关，mysql connectorj 漏洞详情请参见：https://securityonline.info/mysql-connectorj-remote-code-execution-vulnerability/

2020-09-16 10:06:40 1112

原创 Apache DolphinScheduler 1.3.2 发布，架构升级，性能提升 2~3 倍

引言大数据任务调度作为大数据建设中的核心基础设施，在经过社区用户们长期的使用中，不少用户对调度也提出了很多新的要求，为此，Apache DolphinScheduler(Incubating)经过长达 5 个多月的辛苦努力，终于发布了 1.3.2 正式版本。DolphinScheduler-1.3.2 有超过 30 名贡献者参与开发，性能较 1.2 版本有 2 ~ 3 倍的提升，相对 1.2 版本，1.3.x 增加了诸如 K8s支持、多目录管理等重要的新特性和新的任务类型。1.3.x 重要的改动如下.

2020-09-10 14:40:58 3181 1

原创 Git下载加速

方法一（推荐）前期的准备：首先自己将代理开启，系统代理模式改为全局模式1.设置Git的代理方式git config --global http.proxy http://127.0.0.1:1080git config --global https.proxy https://127.0.0.1:1080git config --global http.proxy 'socks5://127.0.0.1:1080' git config --global https.proxy '

2020-08-26 15:46:32 1972

原创 Apache DolphinScheduler 诞生记

Apache DolphinScheduler 诞生记DolphinScheduler，简称”DS”, 中文名 “小海豚调度”（海豚聪明、人性化，又左右脑可互相换班，终生不用睡觉）。希望 DolphinScheduler 就像它的名字一样，成为一个“开箱即用”的灵活易用的调度系统。1概述DAG 全称Directed Acyclic Graph，简称DAG。工作流中的Task任务以有向无环图的形式组装起来，从入度为零的节点进行拓扑遍历，直到无后继节点为止。Apache DolphinScheduler

2020-08-03 18:11:44 3300

原创美女 Committer 手把手教你部署 Apache DolphinScheduler 单机版

还在为如何部署Apache DolphinScheduler 发愁么？自上篇《美女 Committer 手把手教你使用海豚调度》的视频发布后，受到社区伙伴们的热烈欢迎。但个别小伙伴在部署这块还是遇到了一点儿小麻烦，本次特地再次邀请美女 Committer - 陈兴春为社区录制如何部署 DolphinScheduler 单机版本，之所以是单机版本，是因为想让大家能够尽快感受 DolphinScheduler 的能力，让小白也可以轻松部署 DS ，充分贯彻 DolphinScheduler 的 Slogan：调

2020-07-29 19:13:20 1366 3

原创本周六 Apache DolphinScheduler & Doris 将联合线上 Meetup

活动背景 2020年，大数据成为国家基建的一个重要组成，大数据在越来越多的领域展现威力。随着大数据的应用场景越来越多，大家对数据的响应速度和数据加工工作流的方便程度也提出了更高的要求。在这种背景下，相信做过大数据的技术小伙伴应该对 Apache 一词不会陌生，Apache 基金会旗下拥有被广泛使用的众多开源软件，本次特地邀请到 2 个本土的 Apache 大数据应用项目的开发者来一起分享解决数据响应速度和数据工作流任务调度方面的开源技术，一起为中国开源献力。Apache Doris(Incubating

2020-07-21 12:15:53 1028

原创 Apache DolphinScheduler(海豚调度) - 1.3 系列核心表结构剖析

Apache DolphinScheduler 是一个分布式去中心化，易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。近日，伯毅同学给社区贡献了工作流核心表结构的剖析文章，非常细致，喜欢的伙伴请转走1. 工作流总体存储结构在 dolphinscheduler 库中创建的所有工作流定义(模板)都保存在 t_ds_process_definition 表中.该数据库表结构如下表所示:序号字段类型描述1id

2020-07-03 17:10:30 18310

原创金灿灿的季节 - Apache DolphinScheduler收获5位新Committer

在这个金灿灿的收获季节，经过ApacheDolphinSchedulerPPMC们的推荐和投票，ApacheDolphinScheduler收获了5位新Committer。他们是：nauu(朱凯)、Rubik-W(温合民)、gabrywu、liwenhe1993、clay4444。对于成为Committer，小伙伴们说道：朱凯：非常荣幸能够成为DolphinSchedule的Committer。这既是一份喜悦，也是一份责任。我将以终为始，继续打怪升级，助力DS早日毕业...

2020-05-28 19:07:52 963

原创直播回放：DolphinScheduler 1.3.0新特性与Roadmap路线，700多人在线

Apache DolphinScheduler社区于2020-05-26 19:30进行了社区情况介绍和新特性及Roadmap路线分享，本次线上直播有700多人在线，没来得及观看的伙伴请收看回放呐具体内容请参见回放地址：【Apache DolphinScheduler新特性及Roadmap】DolphinScheduler(Incubating) 1.3.0新特性及Roadmap路线直播内容介绍本次直播主要包括以下内容：1、DolphinScheduler社区情况介绍2、缘何.

2020-05-28 11:38:49 1049

转载弄明白CMS和G1，就靠这一篇了

在开始介绍CMS和G1前，我们可以剧透几点：根据不同分代的特点，收集器可能不同。有些收集器可以同时用于新生代和老年代，而有些时候，则需要分别为新生代或老年代选用合适的收集器。一般来说，新生代收集器的收集频率较高，应选用性能高效的收集器；而老年代收集器收集次数相对较少，对空间较为敏感，应当避免选择基于复制算法的收集器。在垃圾收集执行的时刻，应用程序需要暂停运行。可以串行收集，也可以并行收...

2020-04-14 13:38:15 2479

转载使用 DolphinScheduler 调度 Kylin 构建

原创史少锋@Kyligence apachekylin 前天01 背景Apache Kylin 是一个支持海量大数据的在线分析引擎，需要离线或流式地从Apache Hive, Apache Kafka加载数据。通常当上游数据准备好以后，用户需要使用Kylin的Web界面或API触发以生成数据加载的任务。为了让整个工作流自动化起来，需要结合一些任务调度平台，如Oozie，Linux cront...

2020-02-29 23:09:19 6315

原创 Apache DolphinScheduler集群部署方案

集群部署(Cluster)DolphinScheduler集群部署分为后端部署和前端部署两部分：1、后端部署1.1 : 基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可JDK (1.8+) : 必装，请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量ZooK...

2020-02-25 12:35:52 4251

原创 Apache DolphinScheduler 单机部署方案

单机部署(Standalone)DolphinScheduler单机部署分为后端部署和前端部署两部分：1、后端部署1.1 : 基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可JDK (1.8+) : 必装，请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量Z...

2020-02-25 12:32:21 7104 2

原创 Apache DolphinScheduler 1.2.1发布，可视化工作流任务调度系统

Apache DolphinScheduler 1.2.1发布，可视化工作流任务调度系统Apache DolphinScheduler 于2020年2月24日正式发布 1.2.1 版，发布内容如下：新特性：[#1497] 通过 API 创建的工作流在前端展示时自动调整布局。 [#747] Worker server 运行日志脱敏。 [#1635] 配置文件适当合并。 [#154...

2020-02-25 12:21:43 4888 5

转载 logback日志配置说明

常用配置说明1：<?xml version="1.0" encoding="UTF-8"?><!--scan：当此属性设置为true时，配置文件如果发生改变，将会被重新加载，默认值为true。scanPeriod：设置监测配置文件是否有修改的时间间隔，如果没有给出时间单位，默认单位是毫秒当scan为true时，此属性生效。默认的时间间隔为1分钟。debug：当此属性...

2020-02-01 19:33:20 2430

翻译 Code Review应该关注哪些点？

Code Review应该关注什么？注意:当我们考虑以下点时，应当始终遵循Code Review标准。设计Code Review中最重要的一个点就是把握住变更中的整体设计。变更中各个部分的代码交互是否正常？整个改动是否属于你负责的代码库？是否和你系统中其他部分交互正常？现在是否是添加整个功能的恰当时间？功能性开发者在这个变更中想做什么？开发人员打算为该代码的用户带来什么好处？（这里”用...

2019-12-31 20:48:24 1261

原创 Error:java: javacTask: source release 8 requires target release 1.8异常处理

Error:java: javacTask: source release 8 requires target release 1.8编译无问题，运行时报错:环境：JDK Version: 1.8.0_171IDE: IntelliJ Idea 2018IntelliJ SDK Setting解决：1、将Target Bytecode Version设为1.8 。2、如果项目使用...

2019-12-24 16:16:32 768

转载 10分钟，快速搞懂RFM用户分析模型

月月针对全量用户上线活动，运营、设计、产品、研发全情投入，好努力却无从追溯效果？预算有限、想策划高ROI方案？在寻求以上问题的解决办法中，RFM用户价值分层模型一定会上榜，因为它是常见的精细化运营方法论。RFM客户价值模型是一种有着几十年发展和应用的业务分析模型。通过一个客户的近期购买行为（R）、购买的总体频率(F)以及消费总金额(M)三项指标来描述该客户的价值状况，依据这三项指标划分为6...

2019-12-17 22:17:11 8439

原创 Apache ShardingSphere & DolphinScheduler将举行联合meetup

您是否想加入Apache社区并成为某个项目的Committer或PPMC，拥有一个apache邮箱呢？你是否知道apache社区的Committer也可以是非代码贡献者？本联合meetup旨在让对开源有兴趣的伙伴们有机会加入到社区中来，成为一份子，让自己的青春热血留下永久痕迹，让自己的代码(或者文档、或者issue等)才华绽放出璀璨的光芒！活动介绍如今，开源在中国遍地开花，开源之势不可挡，...

2019-11-24 22:44:22 746

转载从开源使用者到Apache PPMC之路

近日, 观远数据联合创始人&首席架构师吴宝琪, 作为Apache DolphinScheduler 的PPMC（项目管理委员会）成员参加了Apache DolphinScheduler 的首届用户大会, 并在大会上做了《从开源使用者到Apache PPMC之路》的分享。Apache软件基金会创建于1999年，是专门为支持开源软件项目而创办的一个非营利性组织，也是世界上最...

2019-11-24 19:54:22 1589

原创 Apache DolphinScheduler的官网正式上线了

DolphinScheduler的官网正式上线了: https://dolphinscheduler.apache.org , 后续的文档都将直接维护在官网上哈！特此告知，欢迎关注！

2019-10-14 17:17:01 5337

原创全票通过！易观开源项目DolphinScheduler进入Apache孵化器

全票通过！易观开源项目DolphinScheduler进入Apache孵化器美国时间2019年8月29日，易观开源的分布式任务调度引擎DolphinScheduler（原EasyScheduler）正式通过顶级开源组织Apache基金会的投票决议，以全票通过的优秀表现正式成为Apache孵化器项目！根据Apache基金会邮件列表显示，在包含11个约...

2019-09-17 07:26:30 5429 2

原创第三届易观算法大赛 -- OLAP Session分析(5万奖金)

OLAP Session分析赛题背景 Session，即会话，是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如，一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属...

2019-09-11 19:35:47 771

原创数据增长之线索培育升级

B2B增长之线索培育升级数据驱动增长讲的大部分都是如何通过渠道质量优化与转化率优化最大能力去挖掘商机，然而增长不仅有拉新，因为增长负责人要关注的是整体业务增长，比如销售漏斗与客户数，资金流和团队效能等，就数字营销领域来说，增长除了拉新之外，还有很重要的一个指标就是促活，当有一定数量的用户的时候，促活的力量要大于拉新，如果我们把新用户与老用户的生命周期价值拉成时间线，会发现随着时间的推移，新用户会...

2019-09-04 14:04:32 632

原创 Easy Scheduler 1.1.0 Release发布，分布式工作流任务调度系统

Easy Scheduler Release 1.1.0Easy Scheduler 1.1.0是1.1.x系列中的第一个版本。新特性：[EasyScheduler-391] run a process under a specified tenement user[EasyScheduler-288] Feature/qiye_weixin[EasyScheduler-189] Ke...

2019-08-08 08:06:15 1288

原创现在Easy Scheduler想贡献给Apache基金会，我们做了一份问卷看下大家的想法，也请大家积极参与，谢谢！

感谢各位伙伴们长期以来的持续关注和贡献，现在Easy Scheduler想贡献给Apache基金会，我们做了一份问卷看下大家的想法，也请大家积极参与，谢谢！https://wj.qq.com/s2/4190958/5588/也欢迎大家直接去https://github.com/analysys/EasyScheduler/issues/638 进行投票...

2019-08-02 17:41:16 840

原创分布式工作流任务调度系统 Easy Scheduler 1.1.0 预览版发布

Easy Scheduler Release 1.1.0-PreviewEasy Scheduler 1.1.0-Preview是1.x系列中的第六个版本。新特性：[EasyScheduler-391] run a process under a specified tenement user[EasyScheduler-288] Feature/qiye_weixin[EasySch...

2019-07-16 17:35:44 1020

原创分布式任务调度EasyScheduler贡献代码流程

首先从远端仓库https://github.com/analysys/EasyScheduler.git fork一份代码到自己的仓库中远端仓库中目前有三个分支：master 正常交付分支发布稳定版本以后，将稳定版本分支的代码合并到master上。dev 日常开发分支日常dev开发分支，新提交的代码都可以pull request到这个分支上。branch-1....

2019-07-05 11:20:26 2069

原创开源分布式工作流任务调度系统EasyScheduler自定义任务插件开发

任务插件开发提醒:目前任务插件开发暂不支持热部署基于SHELL的任务基于YARN的计算（参见MapReduceTask）需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在TaskType注册对应的任务类型)需要继承cn.escheduler.server.worker.task 下的 AbstractYar...

2019-06-13 17:43:05 1303

转载数据分析方法论之常用分析思路

对于一款App来讲，市场渠道人员比较关注渠道的获客质量，经常会用到渠道分析；运营人员比较关注用户在产品内的行为信息，通常会用到用户分群，进行针对性运营；产品人员则关注产品功能的使用情况以及核心流程的转化情况。那么如何实现所有业务人员的数据需求。我们以有帐号体系产品的注册为核心流程为例，一般产品的注册流程为：输入手机号 -> 获取验证码 -> 输入验证码 -> 点击注册 -&g...

2019-06-01 23:03:44 1451 1

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

ippicv_linux_20151201.tgz

正则表达式验证工具.exe

如何在线试用Demo？