现象 数据抽取工具DataX 数据源oracle 数据量 4184500 目标表hive 数据量 4184555 抽取后多了55条数据 原因 目标表存储格式为textfile,textfile默认列分隔符为\001,默认行分隔符为\n 在oracle源数据中本身带有textfile行分隔符\n,所以在遇到源数据中的\n时,就会提前换行,导致字段错位,数据量增加 解决方案 使用列式存储orc存储格式,无需行分隔符,列分隔符指定为\001,经过测试可以解决此问题