DataX数据迁移问题记录:字段中存在\n导致数据混乱

字段里面有代码,代码中有换行符\n,在hive中数据就乱了。
datax的json配置文件改下就行了,在reader、writer层级加上代码替换字段中的\n。

使用ORC格式可以解决,但是会导致mysql中的null值同步至HDFS会变成\N的问题。

{
    "job": {
        "content": [
            {
                "transformer": [
                    {
                        "name": "dx_groovy",
                        "parameter": {
                            "code": "for(int i=0;i<record.getColumnNumber();i++){if(record.getColumn(i).getByteSize()!=0){Column column = record.getColumn(i); def str = column.asString(); def newStr=null; newStr=str.replaceAll(\"[\\r\\n]\",\"\"); record.setColumn(i, new StringColumn(newStr)); };};return record;",
                            "extraPackage": []
                        }
                    }
                ],
                "writer": {
                    ...
                },
                "reader": {
                    ...
                }
            }
        ],
        "setting": {
            ...
        }
    }
}

修改表的属性信息

#null设置
alter table t_dw_ct_author set serdeproperties('serialization.null.format' = '\N');
#字段分隔符
alter table dw_ads.ads_temp_pro_user set SERDEPROPERTIES('field.delim'='\t');
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MelodyYN

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值