Hive表字段值中存在换行符，查询结果混乱进而导致插入失败_hive 插入的数据有换行(1)

最新推荐文章于 2024-06-27 14:53:43 发布

2401_84170337

最新推荐文章于 2024-06-27 14:53:43 发布

阅读量763

点赞数 21

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84170337/article/details/138667895

版权

程序员专栏收录该内容

172 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

Error message from spark is:java.io.IOException: ERROR-1-HIVE:20027:{Failed to execute move task of sparkSql}Moving data to: hdfs://...
move task failed to execute => Failed with exception ERROR: syntax error at or near ":"  位置：384

报错信息提示语法问题，可是检查SQL发现也没有什么语法问题，这到底是怎么回事呢？

2、问题原因

最终，从SQL和表的角度入手，首先，检查SQL里面的查询语句的执行：

select
    dt,
    id,
    name,
    counts,
    roles,
    comments
from t2
where dt='20240101'

使用Presto引擎的执行的结果：

dt	id	name	counts	roles	comments
20240101	18	A	630	伍六七青凤江惠莲	793

使用Hive（MapReduce）和Spark引擎执行的结果：

dt	id	name	counts	roles	comments
20240101	18	A	630	伍六七	NULL
青凤	NULL	NULL	NULL	NULL	NULL
江惠莲	793	NULL	NULL	NULL	NULL

从上面结果可以看到，若Hive表字段值中存在换行符，MapReduce和Spark引擎的查询结果出现混乱

由于我们的调度系统设置的执行引擎为Spark，因此，原本查询的一行结果会被字段值中的换行符\n转换为多行，查询结果结构混乱，最终导致插入失败

3、问题解决

Hive提供了regexp_replace()函数可用于替换数据仓库中包含特殊字符（如换行符）的字段

Hive字符串UDF官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions

根据官网描述，换行符\n使用两个反斜杠，即一个反斜杠用来转义

修改后的SQL如下：

insert table t1
select
    dt,
    id,
    name,
    counts,
    regexp_replace(roles, '\\n', ' ') as roles,
    comments
from t2
where dt='20240101'

这样，我们的数据才会显示正常，报错问题也就解决了

另外，部分系统可能需要使用四个反斜杠，即

regexp_replace(col, '\\\\n', ' ')

以下是一些常见的特殊符号：

常见换行：\n换行，\r回车、\r\n回车并换行
ASCII中的换行：\x0A（10，\n），\x0D（13，\r）
三种Unicode空格：

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

f254613a03fab5e56a57acb)**

2401_84170337

关注

21
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive表字段值中存在换行符，查询结果混乱进而导致插入失败_hive 插入的数据有换行(1)

报错信息提示语法问题，可是检查SQL发现也没有什么语法问题，这到底是怎么回事呢？
复制链接

扫一扫

专栏目录

Hive表字段值中存在换行符，查询结果混乱进而导致插入失败_hive 插入的数据有换行(1)

2、问题原因

3、问题解决

“相关推荐”对你有帮助么？