关闭

hadoop的sqoop和除重调度实现配置化

标签: file
369人阅读 评论(0) 收藏 举报
分类:

初步流程是:

1.       将业务库抽数、数据除重做成公共模版,开发人员要抽数、除重时填写统一调度平台的任务调度配置信息表,此部分信息存在调度平台数据库,另外还要填写任务调度相关的参数,这块存在hdfs中的properties文件中

2.       统一调度平台向hadoop下发调度作业,调度作业至少要包含调度任务的任务名称

3.       Hadoop接收到任务名称后从hdfsproperties文件中解析出所需参数,然后构造取数或除重命令,最后执行命令

 

 

数据抽取模板的参数:

源库连接串、源库用户名、源库密码、源表schema、源表表名、源表字段名、增量字段、增量范围、并发控制、queue名、hadoop用户名、分区字段(SID,OP_DAY)、分区值、IncstartIncEndhive库名、hive表名

 

数据除重模板所需参数:

源库名、源表名、源字段、目标库名、目标表名、目标字段、partition by 字段、order by 字段、操作时间

 

 

 

但是想了下还会有以下问题,要想办法解决:

1.       如何返回运行结果、报错信息、执行时长

2.       这套方案只能正常启动,不能重跑

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:45482次
    • 积分:1
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:5篇
    • 译文:0篇
    • 评论:10条
    最新评论