Hive 多字节分隔符：替换分隔符、RegexSerDe正则加载、自定义InputFormat

pljnb

于 2023-02-22 10:20:15 发布

阅读量355

点赞数 1

分类专栏： Hive 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/pljnb/article/details/129156281

版权

Hive 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

文章介绍了在Hive中处理含有多字节分隔符的数据的三种方法：1)通过程序替换分隔符；2)使用RegexSerDe正则加载，适应特殊数据格式；3)自定义InputFormat，定制数据读取逻辑。其中，RegexSerDe和自定义InputFormat提供了解决复杂分隔符问题的灵活性。

摘要由CSDN通过智能技术生成

Hive 多字节分隔符

默认序列化类只支持单字节分隔符(char)，通过row format指定。
多字节分隔符可解决数据中含分隔符的情况。
文章目录
- Hive 多字节分隔符

解决方案一：替换分隔符

使用程序提前将数据中的多字节分隔符替换为单字节分隔符。
当数据量较大时，推荐使用MR程序分布式处理数据。

解决方案二：RegexSerDe正则加载

可通过官网地址查看Hive SerDe类
多种SerDe用于解析和加载不同类型的数据文件，常用的有ORCSerDe、RegexSerDe、JsonSerDe等。
RegexSerDe用来加载特殊数据的问题，使用正则匹配来加载数据。
可解决数据中含分隔符的情况。
例：
分析数据格式： 01 || 周杰伦 || 中国 || 台湾 || 男 || 七里香
正则表达式： ([0-9])\|\|(.)\|\|(.)\|\|(.)\|\|(.)\|\|(.)
重新建表：

CREATE TABLE singer(id STRING,
									 name STRING,
									 country STRING,
									 province STRING,
									 gender STRING,
									 works STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES ("input.regex" = "([0-9]*)\\|\\|(.*)\\|\\|(.*)\\|\\|(.*)\\|\\|(.*)\\|\\|(.*)");