既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
Error message from spark is:java.io.IOException: ERROR-1-HIVE:20027:{Failed to execute move task of sparkSql}Moving data to: hdfs://...
move task failed to execute => Failed with exception ERROR: syntax error at or near ":" 位置:384
报错信息提示语法问题,可是检查SQL发现也没有什么语法问题,这到底是怎么回事呢?
2、问题原因
最终,从SQL和表的角度入手,首先,检查SQL里面的查询语句的执行:
select
dt,
id,
name,
counts,
roles,
comments
from t2
where dt='20240101'
使用Presto引擎的执行的结果:
dt | id | name | counts | roles | comments |
---|---|---|---|---|---|
20240101 | 18 | A | 630 | 伍六七青凤江惠莲 | 793 |
使用Hive(MapReduce)和Spark引擎执行的结果:
dt | id | name | counts | roles | comments |
---|---|---|---|---|---|
20240101 | 18 | A | 630 | 伍六七 | NULL |
青凤 | NULL | NULL | NULL | NULL | NULL |
江惠莲 | 793 | NULL | NULL | NULL | NULL |
从上面结果可以看到,若Hive表字段值中存在换行符,MapReduce和Spark引擎的查询结果出现混乱
由于我们的调度系统设置的执行引擎为Spark,因此,原本查询的一行结果会被字段值中的换行符\n
转换为多行,查询结果结构混乱,最终导致插入失败
3、问题解决
Hive提供了regexp_replace()
函数可用于替换数据仓库中包含特殊字符(如换行符)的字段
Hive字符串UDF官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions
根据官网描述,换行符\n
使用两个反斜杠,即一个反斜杠用来转义
修改后的SQL如下:
insert table t1
select
dt,
id,
name,
counts,
regexp_replace(roles, '\\n', ' ') as roles,
comments
from t2
where dt='20240101'
这样,我们的数据才会显示正常,报错问题也就解决了
另外,部分系统可能需要使用四个反斜杠,即
regexp_replace(col, '\\\\n', ' ')
以下是一些常见的特殊符号:
- 常见换行:
\n
换行,\r
回车、\r\n
回车并换行 - ASCII中的换行:
\x0A
(10,\n
),\x0D
(13,\r
) - 三种Unicode空格:
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
f254613a03fab5e56a57acb)**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!