Hive表字段值中存在换行符,查询结果混乱进而导致插入失败_hive 插入的数据有换行(2)


报错信息提示语法问题,可是检查SQL发现也没有什么语法问题,这到底是怎么回事呢?


### 2、问题原因


  

最终,从SQL和表的角度入手,首先,检查SQL里面的查询语句的执行:



select
dt,
id,
name,
counts,
roles,
comments
from t2
where dt=‘20240101’


使用Presto引擎的执行的结果:




| dt | id | name | counts | roles | comments |
| --- | --- | --- | --- | --- | --- |
| 20240101 | 18 | A | 630 | 伍六七青凤江惠莲 | 793 |


使用Hive(MapReduce)和Spark引擎执行的结果:




| dt | id | name | counts | roles | comments |
| --- | --- | --- | --- | --- | --- |
| 20240101 | 18 | A | 630 | 伍六七 | NULL |
| 青凤 | NULL | NULL | NULL | NULL | NULL |
| 江惠莲 | 793 | NULL | NULL | NULL | NULL |


从上面结果可以看到,若Hive表字段值中存在换行符,MapReduce和Spark引擎的查询结果出现混乱


由于我们的调度系统设置的执行引擎为Spark,因此,原本查询的一行结果会被字段值中的换行符`\n`转换为多行,查询结果结构混乱,最终导致插入失败


### 3、问题解决


  

Hive提供了`regexp_replace()`函数可用于替换数据仓库中包含特殊字符(如换行符)的字段


Hive字符串UDF官网:<https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions>


根据官网描述,换行符`\n`使用两个反斜杠,即一个反斜杠用来转义


修改后的SQL如下:



insert table t1
select
dt,
id,
name,
counts,
regexp_replace(roles, ‘\n’, ’ ') as roles,
comments
from t2
where dt=‘20240101’


这样,我们的数据才会显示正常,报错问题也就解决了


另外,部分系统可能需要使用四个反斜杠,即



regexp_replace(col, ‘\\n’, ’ ')


以下是一些常见的特殊符号:


* **常见换行**:`\n`换行,`\r`回车、`\r\n`回车并换行
* **ASCII中的换行**:`\x0A`(10,`\n`),`\x0D`(13,`\r`)
* **三种Unicode空格**:


	+ `\u00A0`不间断空格:主要用于Office中,让一个单词在结尾处不会换行显示
	+ `\u0020`半角空格(英文符号):代码中常用的空格
	+ `\u3000`全角空格(中文符号):中文文章中使用的空格



![img](https://img-blog.csdnimg.cn/img_convert/81591b867a3ca4f350eab8951d4a2957.png)
![img](https://img-blog.csdnimg.cn/img_convert/6976f96ff3e77f92e96a0288aace22cd.png)
![img](https://img-blog.csdnimg.cn/img_convert/3dfe91e5d52904f55f7316606cb77bdd.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值