HIVE RegexSerDe使用详解

hive 同时被 3 个专栏收录
2 篇文章 0 订阅
2 篇文章 0 订阅
2 篇文章 0 订阅

通常情况下,hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data,可以使用hive自导的RegexSerDe来实现。

RegexSerDe类是hive自带的,使用正则表达式来支持复杂的data导入。

在hive0.11中,自带了两个RegexSerDe类:

org.apache.hadoop.hive.contrib.serde2.RegexSerDe;

org.apache.hadoop.hive.serde2.RegexSerDe;

这两个类的区别在:

org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定,设定了还会报警~~~~

org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持,功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大,推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。

下面对RegexSerDe类的介绍都是指:org.apache.hadoop.hive.contrib.serde2.RegexSerDe

1、使用方法:

示例:

	CREATE TABLE test_serde(  
			c0 string,  
			c1 string,  
			c2 string)  
			ROW FORMAT  
			SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
			WITH SERDEPROPERTIES  
			( 'input.regex' = '([^ ]*) ([^ ]*) ([^ ]*)', 
			'input.regex.case.insensitive' = 'false'
			'output.format.string' = '%1$s %2$s %3$s')  
			STORED AS TEXTFILE; 
2、关键参数:

input.regex:输入的正则表达式
input.regex.case.insensitive:是否忽略字母大小写,默认为false
output.format.string:输出的正则表达式
3、注意事项:

a、使用RegexSerDe类时,所有的字段必须为string

b、input.regex里面,以一个匹配组,表示一个字段:([^ ]*)



  • 1
    点赞
  • 0
    评论
  • 4
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

参与评论
请先登录 后发表评论~
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页

打赏作者

仲渊

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值