hive中使用正则表达式不当导致运行奇慢无比

在Hive中,一个实时计算需求的HQL语句因正则表达式使用不当导致运行缓慢,单个Map任务超过1小时。通过分析和优化正则表达式,如移除开头的".*",显著提高了运行效率,避免了不必要的全字符串匹配,提醒在遇到类似问题时要注意检查并优化正则表达式。
摘要由CSDN通过智能技术生成

       业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程:

1、hql语句:

CREATE TABLE weibo_mobile_nginx AS SELECT
	split(split(log, '`') [ 0 ], '\\|')[ 0 ] HOST,
	split(split(log, '`') [ 0 ], '\\|')[ 1 ] time,
	substr(
		split(
			split(split(log, '`') [ 2 ], '\\?')[ 0 ], ' '
		)[ 0 ], 2
	)request_type,
	split(
		split(split(log, '`') [ 2 ], '\\?')[ 0 ], ' '
	)[ 1 ] interface,
	regexp_extract(
		log,
		’.*& ua =[^ _ ]* __([^ _ ]*)__([^ _ ]*)__([^ _ ]*)__<span style="font-family: Arial, Helvetica, sans-serif;">[^&]*</span>’,
		3
	)version,
	regexp_extract(
		log,
		’.*& ua =[^ _ ]* __([^ _ ]*)__([^ _ ]*)__([^ _ ]*)__.* ',1) systerm,regexp_extract(log,’.*&networktype=([^&%]*).*',
		1
	)net_type,
	split(log, '`')[ 4 ] STATUS,
	split(log, '`')[ 5 ] client_ip,
	split(log, '`')[ 6 ] uid,
	split(log, '`')[ 8 ] request_time,
	split(log, '`')[ 12 ] request_uid,
	split(log, '`')[ 13 ] http_host,
	split(log, '`')[ 15 ] upstream_response_time,
	split(log, '`')[ 16 ] idc
FROM
	ods_wls_wap_base_orig
WHERE
	dt = '20150311
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值