工作中遇到一个案例,如下:
value | unit | want |
---|---|---|
4.0-10.0*10^9/L | *10^9/L | 4.0-10.0 |
3.5-5.0*10^12/L | *10^12/L | 3.5-5.0 |
两个字段,一个带单位的数值,一个单位
希望截取数值,例如want字段
首先想到regexp_replace函数regexp_replace(value ,unit,’’)
报错java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public org.apache.hadoop.io.Text org.apache.hadoop.hive.ql.udf.UDFRegExpReplace.evaluate(org.apache.hadoop.io.Text,org.apache.hadoop.io.Text,org.apache.hadoop.io.Text) on object org.apache.hadoop.hive.ql.udf.UDFRegExpReplace@3201f0e9 of class org.apache.hadoop.hive.ql.udf.UDFRegExpReplace with arguments {280.0-310.0:org.apache.hadoop.io.Text, mOsm/\(kg:org.apache.hadoop.io.Text, :org.apache.hadoop.io.Text} of size 3
明明输入是size 3不知道为什么会报错。查了很多资料没有搞定,还以为是regexp_replace函数不支持字段作为匹配规则。
后来发现是特殊字符的原因,需要转义才能识别为正则函数
1.unit字段有特殊字符的需要添加转义字符‘\’如下:
regexp_replace(
regexp_replace(unit, ‘\’ , '\\\’)
, ‘\^’ , ‘\\\^’) unit_pp
2.再进行替换不会报错了,后来验证无误。
regexp_replace(reference, unit_pp, ‘’)