HIVE RegexSerDe使用详解

最新推荐文章于 2024-08-08 09:42:58 发布

原创最新推荐文章于 2024-08-08 09:42:58 发布 · 5.3k 阅读

6 ·

CC 4.0 BY-SA版权

hive 同时被 3 个专栏收录

2 篇文章

订阅专栏

hadoop

2 篇文章

订阅专栏

数据平台

2 篇文章

订阅专栏

本文介绍了如何在Hive中使用RegexSerDe处理复杂格式的数据。通过设置不同的参数如input.regex, input.regex.case.insensitive及output.format.string等，可以灵活地解析和输出数据。特别强调了org.apache.hadoop.hive.contrib.serde2.RegexSerDe的功能及其使用方法。

通常情况下，hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data，可以使用hive自导的RegexSerDe来实现。

RegexSerDe类是hive自带的，使用正则表达式来支持复杂的data导入。

在hive0.11中，自带了两个RegexSerDe类：

org.apache.hadoop.hive.contrib.serde2.RegexSerDe;

org.apache.hadoop.hive.serde2.RegexSerDe;

这两个类的区别在：

org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定，设定了还会报警~~~~

org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持，功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大，推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。

下面对RegexSerDe类的介绍都是指：org.apache.hadoop.hive.contrib.serde2.RegexSerDe

1、使用方法：

示例：

	CREATE TABLE test_serde(  
			c0 string,  
			c1 string,  
			c2 string)  
			ROW FORMAT  
			SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
			WITH SERDEPROPERTIES  
			( 'input.regex' = '([^ ]*) ([^ ]*) ([^ ]*)', 
			'input.regex.case.insensitive' = 'false'
			'output.format.string' = '%1$s %2$s %3$s')  
			STORED AS TEXTFILE;

2、关键参数：

input.regex：输入的正则表达式

input.regex.case.insensitive：是否忽略字母大小写，默认为false

output.format.string：输出的正则表达式

3、注意事项：

a、使用RegexSerDe类时，所有的字段必须为string

b、input.regex里面，以一个匹配组，表示一个字段：([^ ]*)