hive中转义字符的使用

最新推荐文章于 2023-12-14 15:37:13 发布

yagch

最新推荐文章于 2023-12-14 15:37:13 发布

阅读量1.4w

点赞数 1

分类专栏： hive

本文链接：https://blog.csdn.net/qq_34897849/article/details/102691285

版权

Hadoop和Hive都是用UTF-8编码的，所以, 所有中文必须是UTF-8编码, 才能正常使用

备注：中文数据load到表里面, 如果字符集不同，很有可能全是乱码需要做转码的, 但是hive本身没有函数来做这个

自身的转义，比如java有时候需要两个转义字符"\\"，或者四个转义字符“\\\\”。

a.正则表达式匹配和string的split函数，这两种情况中字符串包含转义字符“\”时，需要先对转义字符自身转义，就是说需要两个转义字符“\\”。比如\n,\t等（java解析后，再有正则和split自身特定进行解析）

b.而当匹配字符正斜线“\”，则需要四个转义字符“\\\\”，因为，首先java（编译器？）自身先解析，转义成两个“\\”，再由正则或split的解析功能转义成一个“\”，才是最终要处理的字符。

这是因为解析过程需要两次，才能在字符串中出现正斜线“\”，出现后才能转义后面的字符。

hive用java写的，所以同Java一样，两种情况也需要两个“\\”，

split处理代码为例：

a.split(dealid,'\\\\')[0] as dealids,1: 代码中，如果以“\”作为分隔符的话，那么就需要4个转义字符“\\\\”，即

b.split(all,'~') :这里切分符号是正则表达式，按一个字符分隔没问题

c. split(all,'[|~]+'): 在[]内部拼接成字符串

shell语言也有转义字符，自身直接处理。

而hive语句在shell脚本中执行时，就需要先由shell转义后，再由hive处理。这个过程又造成二次转义。

如上面的hive语句写入shell脚本中，执行是错误的，shell先解析，转义成”|“后传给hive，hive解析这个转义字符后，split就无法正确的解析了。

所以，注意hive语句在shell脚本执行时，转义字符需要翻倍。hive处理的是shell转义后的语句，必须转以后正确，才能执行。

注意：是否使用转义字符是看这个字符在这个语言中有没有特殊意义，有的话，就需要加上\来进行转义、

转义字符的使用：
转义字符

关注