Dolphinscheduler调度DataX配置

本文详细介绍了DataX的数据同步工具中Reader和Writer插件的功能,包括从MySQL、HDFS、HTTP等不同源获取数据,以及将数据写入HDFS、MySQL等目标端的方法。并提供了mysql_to_hive和hive_to_mysql的配置示例,展示了如何通过JSON配置文件实现数据的高效传输。

一、Reader插件和Writer插件

“reader”: {
“name”: “mysqlreader”, #从mysql数据库获取数据(也支持sqlserverreader,oraclereader)
“name”: “txtfilereader”, #从本地获取数据
“name”: “hdfsreader”, #从hdfs文件、hive表获取数据
“name”: “streamreader”, #从stream流获取数据(常用于测试)
“name”: “httpreader”, #从http URL获取数据
}
“writer”: {
“name”:“hdfswriter”, #向hdfs,hive表写入数据
“name”:"mysqlwriter ", #向mysql写入数据(也支持sqlserverwriter,oraclewriter)
“name”:"streamwriter ", #向stream流写入数据。(常用于测试)
}

二、json配置文件模板

  1. 整个配置文件是一个job的描述;

  2. job下面有两个配置项,content和setting,其中content用来描述该任务的源和目的端的信息,setting用来描述任务本身的信息;

  3. content又分为两部分,reader和writer,分别用来描述源端和目的端的信息;

  4. setting中的speed项表示同时起几个并发去跑该任务。

  5. mysql_to_hive示例
    {
    “job”: {
    “content”: [
    {
    “reader”: {
    “name”: “mysqlreader”,
    “parameter”: {
    “querySql”: “”, #自定义sql,支持多表关联,当用户配置querySql时,直接忽略table、column、where条件的配置。
    “fetchSize”: “”, #默认1024,该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了DataX和服务器端的网络交互次数,能够较大的提升数据抽取性能,注意,该值过大(>2048)可能造成DataX进程OOM
    “splitPk”: “db_id”, #仅支持整形型数据切分;如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片,如果该值为空,代表不切分,使用单通道进行抽取
    “column”: [], #"*“默认所有列,支持列裁剪

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值