一、sqoop导入到hive过程中,怎么对数据进行清洗?比如mysql里的数据出现\t等字符?
你意思是列分隔符为\t,但是某个字段里面的数据也包含了\t,把数据里的\t识别成分隔符
解决办法:
--fields-terminated-by "\001"
用001来指定分隔符
问:
如果字段里有\001呢,你指定的分隔字段 和mysql里包含的内容一样,
是不管你hive用啥分割,他数据里就有相同的分割符
答:
如果要处理,有参数可以设置
一个是去除,一个是替换
--hive-drop-import-delims 和 --hive-delims-replacement
一般导入出现数据中出现分隔符,oracle会常见一点