datax导数-＞hdfsReader到postgresql数据丢失？

cclovezbf

已于 2022-06-09 18:30:15 修改

阅读量1.6k

点赞数 4

分类专栏： datax 文章标签： datax 数据丢失 hdfsreader

于 2021-05-20 10:34:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cclovezbf/article/details/117064747

版权

datax 专栏收录该内容

16 篇文章 10 订阅

订阅专栏

解决了上篇文章的tpg的特殊字符invalid byte sequence for encoding "UTF8": 0x00 问题。

原以为可以开开心心等结果就好。

最后发现导的8个表中有4个表数量对不上？？？？简直不敢想象，仔细看了下dolphin上的日志，一切正常。

背景说下

sms_vendor_contact_t：oracle:8198715 hive:8198715 tpg:4195000 少数据

sms_vendor_site_t: oracle:9578067 hive:9578067 tpg:9578067 没问题

这就奇了怪了。两个表数量都很多，为啥一个数据少了一个数据多了？两个没啥区别呀。

重新跑一遍。还是4195000.。。。那肯定是有datax有问题了。先仔细回想下，

这个site表比较特殊呀。因为这个表当时数据比较多跑的比较慢，采用了splitPk的方式,分了10个channel,难道是这？

下面的473M激起了学习hadoop hive的回忆 256 128.... 好吧其实是我百度了有个话提醒了我

datax的数据缺失的一次处理_宛风轻云的博客-CSDN博客_datax数据缺失

这个数据过大。。。。。值得深思，那肯定和上面的473M>256M有关。难道。。。。是把473M切成了2个切片，只取了一个切片？不可能，阿里的人不会这么lowb，感觉快要接近真相了，研究下源码。

好吧，我不是发现问题就去研究源码。我是百度了才去看源码

DATAX hdfsreader orc格式读取丢数问题修复及验证 - 简书原文章

fix orcFileStartRead by wangchuande · Pull Request #262 · alibaba/DataX · GitHub 解决文章。

左边获取切片个数 splits 然后直接开始搞第一个切片？？？？后面切片不要了？？？

改成右边那个for循环就ok

这个最基本的解决思路。

还有另外一种思路。上面我还有一个site表是正常的。说明切分任务，最后文件也会切分，切分成多个自然就会<256M了。还有一种方式就是压缩例如snappy。当然这都是治标不治本。

为什么我要说下这个方法，这个涉及到后面导数提速。。。。下篇文章再说

如果帮到你，点个赞，谢了。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cclovezbf CSDN认证博客专家 CSDN认证企业博客

码龄6年

232: 原创

2万+: 周排名

1万+: 总排名

48万+: 访问

: 等级

3824: 积分

254: 粉丝

423: 获赞

112: 评论

1080: 收藏

私信

关注

分类专栏

最新评论

详细讲解hive on tez中各个参数作用，以及如何优化sql
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
windows环境下Invalid Spark URL: spark://HeartbeatReceiver@xxxx报错解决。
cclovezbf: 帮到你很开心
datax优化之reader提速-详细经历
ajievip: 用rdbmsreader 和writer肯定是没有问题的。
windows环境下Invalid Spark URL: spark://HeartbeatReceiver@xxxx报错解决。
xlong_28: 困扰了一个星期，安装了无数个版本配置环境，tb花钱远程也解决不了，最后这个帖子救了命！！我的主机名不带下划线，通过修改hosts文件指定localhost强制绑定主机名，和spark配置文件强制绑定主机名完美解决！！！感谢！
hadoop学习之WebHDFS (REST API)
cclovezbf: clouder manger 就是cdp cdh自带的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。