ETL调度工具JobStream功能及源代码

1 功能设计

1.1 功能图

 

1.2 功能介绍

1.2.1 自动构建依赖关系流

根据维护的Job的输入输出的hdfs路径,自动构建JOB之间依赖关系,一个JOB可能有多个输入路径,多个输出路径,那么一个Job可能依赖于多个Job执行成功完后才可执行

1.2.2 作业优先级的控制

调度系统按照作业优先级控制目前谁的Job优先执行,如果优先级一样,先执行提交时间早的JOB,对于一些重要的线上系统作业可设置高优先级

1.2.3 作业并发数的控制

控制同时正在运行的作业数,可根据系统情况自由调整

1.2.4 智能断点重跑

每日跑批作业,以项目为单元进行调度,一个项目包装很多作业,智能断点重跑要做的是当其中个别或部分作业出错,待技术人员调试解决后,需要重新跑批,系统自动执行上次出错作业的后续作业流,避免每个人都去手工补数据

1.2.5 任务出错重试机制

作业有可能因为当时外部因素,比如网络原因,未执行成功,并非自己本身bug,会给予机会重试。

1.2.6 任务出错邮件报警

数据库会记录所有程序运行的状态,有出错的任务立即给予报警

1.2.7 作业性能报表

结合记录的程序跑批日志,对运行时间长的做top排行,用于确定需要优化的作业


2 源代码

https://github.com/xmingyang/JobStream

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ETL(Extract, Transform, Load)调度工具在处理数据方面具有以下优势: 1. 自动化和可编排:ETL调度工具可以自动执行数据抽取、转换和加载的任务,减少了人工操作和手动干预的需求。通过可编排的工作流程,可以定义任务之间的依赖关系和执行顺序,实现自动化的数据处理流程。 2. 时间和资源优化:ETL调度工具可以根据设定的时间表和优先级来执行任务,确保数据处理在最佳的时间段内完成。可以利用闲时或非高峰期执行任务,避免对生产环境和用户操作造成影响。此外,ETL调度工具可以优化资源利用,根据服务性能和负载情况进行任务分配和并行处理,提高效率。 3. 容错和恢复能力:ETL调度工具通常具备容错和恢复能力,能够在任务失败或中断时自动重新尝试或触发报警机制。可以配置错误处理策略,如跳过错误记录、记录错误日志等,以确保数据处理的稳定性和完整性。 4. 监控和可视化:ETL调度工具提供监控和可视化功能,可以实时跟踪任务的执行状态、运行日志和性能指标。通过仪表板或报表,可以直观地查看任务的运行情况、数据质量和处理效果,便于及时发现和解决问题。 5. 扩展性和灵活性:ETL调度工具通常支持多种数据源和目标系统,可以适应不同的数据处理需求。可以通过配置和定制来满足特定场景的要求,如数据过滤、转换规则、数据映射等。同时,ETL调度工具还支持扩展插件和自定义脚本,方便与其他工具和系统进行集成。 总体而言,ETL调度工具在处理数据时能够提高效率、减少人工工作量,并保证数据的准确性和一致性。它们是大规模数据处理和数据集成的重要工具,广泛应用于企业的数据仓库、商业智能和数据分析等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值