通常情况下,hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data,可以使用hive自导的RegexSerDe来实现。
RegexSerDe类是hive自带的,使用正则表达式来支持复杂的data导入。
在hive0.11中,自带了两个RegexSerDe类:
org.apache.hadoop.hive.contrib.serde2.RegexSerDe;
org.apache.hadoop.hive.serde2.RegexSerDe;
这两个类的区别在:
org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定,设定了还会报警~~~~
org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持,功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大,推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。
下面对RegexSerDe类的介绍都是指:org.apache.hadoop.hive.contrib.serde2.RegexSerDe
1、使用方法:
示例:
CREATE TABLE test_serde(
c0 string,
c1 string,
c2 string)
ROW FORMAT
SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES
( 'input.regex' = '([^ ]*) ([^ ]*) ([^ ]*)',
'input.regex.case.insensitive' = 'false'
'output.format.string' = '%1$s %2$s %3$s')
STORED AS TEXTFILE;
2、关键参数:
input.regex:输入的正则表达式
input.regex.case.insensitive:是否忽略字母大小写,默认为false
output.format.string:输出的正则表达式
3、注意事项:
a、使用RegexSerDe类时,所有的字段必须为string
b、input.regex里面,以一个匹配组,表示一个字段:([^ ]*)