大数据-数据同步-DATAX
文章平均质量分 53
datax数据同步中的一些总结
csdn_wr
这个作者很懒,什么都没留下…
展开
-
datax列越界,datax文本限定符,datax文本引号问题
datax列越界,datax文本引号问题原创 2022-12-05 14:19:50 · 1489 阅读 · 1 评论 -
datax基于java数据同步(自建数据平台)
背景介绍公司搭建自己的数据平台,datax作为数据采集工具还是非常强有力的,但是官方是通过python调取datax.py文件实现数据同步的,没法子很好的集成在自己的数据平台上。步骤下载datax源码在pom文件中去掉暂时用不到的reader、writer,这样maven时间比较块<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi原创 2021-04-28 17:31:29 · 1367 阅读 · 0 评论 -
datax增量抽取mongoDB
背景介绍公司现在数据采集增加了一个数据源mongoDB,目前是采用阿里datax工具抽取,高高兴兴去官网查看json demo。发现demo里没有query,那选填的query应该怎么填呢?解决思路既然demo没有给,那就看看它的源码怎么写的吧(很忐忑,源码逻辑千万不要太难,不然看不懂)。咦,发现还是很明了的,query的出现在Document queryFilter = Document.parse(query);点进去一看,是个json字符串,然后再百度一下mongodb的条件查询,结合上面代原创 2021-01-26 16:43:32 · 5424 阅读 · 2 评论 -
datax如何支撑hive分区表
背景介绍公司要搭建数据中台,离线数据采集就是其中重要一环,目前是基于alibaba的datax组件来搞得,整体来说日志非常清晰,定位问题非常好。but,它就是没办法支持hive分区表。原因是,datax写入hdfs时,必须要一个存在的hdfs目录,不然就报错,它不自动创建。分区表的分区对应的是目录,所以肯定不存在这个目录的。解决思路修改hdfswrite插件,在写入hdfs的时候,指定的分区路径如果不存在就创建一个。解决步骤第一步下载datax源码链接解压修改hdfswrite插件源码原创 2020-11-02 20:00:56 · 6109 阅读 · 8 评论