调度系统
大数据运维
大数据运维研发SRE
展开
-
开源数据流处理
随着公司规模增长,他们的工作流更加复杂,包含更多子处理过程以及带有复杂的依赖关系,这将导致更多监控、问题以及运维工作。如果没有一个清晰的数据血缘关系,可能会引起引用链问题和操作元数据丢失。这就是为什么DAGs、数据流和工作流管理器等产生的原因。 复杂的工作流可以通过DAGs来展现。DAGs就是信息沿着指定的方向在不通节点之间传递的一张图,但信息在图中流传不会回到原点。构建DAGs过程的就是数翻译 2018-01-18 13:43:48 · 1829 阅读 · 0 评论 -
调度工具技术选型与开发参考
无论是自研调度工具,还是技术选型,都需要实先确定自己的业务需求,今儿根据具体的业务需求进行相关的研究与开发工作。 主要是个人记录日常事物,读者仅供参考。一、调度工具目标1、支持依赖配置:任务间依赖2、支持定时任务与临时任务,灵活配置与启动停止3、支持分布式运行任务4、支持触发式运行任务:存在依赖的任务,上游任务运行结束,可以触发下游任务的运行5、软件要求...原创 2018-03-15 11:51:04 · 1331 阅读 · 1 评论 -
Alibaba DataX调研使用
接触DataX是基于公司离线数据同步需求,从而开始接触到DataX的使用。前异构数据之间开源同步工具,主要有Sqoop Sqoop是一款开源的工具,主要用于Hadoop与传统RDBMS之间的数据同步,可以将RDBMS中的数据同步到HDFS中,也可以进行逆向操作。主要是基于MR任务的进行同步,具有支持并发、增量更新、支持海量数据同步等优点。 Sqoop Wiki Sqoo...原创 2018-06-26 23:01:08 · 9457 阅读 · 0 评论