Spark SQL调用regexp_extract的处理方式

最新推荐文章于 2025-09-25 11:23:12 发布

原创最新推荐文章于 2025-09-25 11:23:12 发布 · 3.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

Spark 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了regexp_extract函数的使用，该函数用于从字符串中按照正则表达式规则提取特定分组的内容。通过示例展示了如何从'100-200'和'8d99d8'中提取数字，返回的结果分别是200和99。该函数在数据处理和分析中非常实用。

regexp_extract
函数功能：将字符串按照指定规则拆分为组后，返回指定组的字符串。
命令格式：string regexp_extract(string <source>, string <pattern>[, bigint <groupid>])
    命令说明：将字符串source按照pattern的分组规则进行字符串匹配，返回第groupid个组匹配到的字符串内容
    参数说明：source是待拆分的字符串
             pattern是常量或正则表达式
             groupid是数组里要的下标值
示例：
  SELECT REGEXP_EXTRACT('100-200', '(\\d+)-(\\d+)', 2)
  结果200，注意这里需要使用两个"\"作为转义字符

  SELECT REGEXP_EXTRACT('8d99d8', '8d(\\d+)d8', 1);
  结果99