数据分析遇到字符串处理会有两个阶段涉及到正则表达式,一个是在数据库阶段一个是Python处理阶段。作为一个小白学习正则也遇到很多弯路和难理解的点,今天就梳理梳理学习的过程。
hive里面正则表达式可以用regexp_extract()
在select里进行返回指定要求的内容,也可以用regexp
在where里进行指定要求的限制条件;
python里面re.findall()
或者df.str.extract()
(pandas功能);
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。学习正则需要记住两类知识点加上实际案例的联系就能很快的理解和掌握。
正则中语法规范:
括号区别:
正则表达式中存在()
,[]
,{}
1、():匹配小括号内的字符串,可以是一个,也可以是多个,常跟“|”(或)符号搭配使用,是多选结构的。() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串
例:
string= | ‘我正在学习python3的正则表达式,现在的日期是2019-01-22’ |
---|---|
目的 | 给定指定字符串进内容进行精准匹配获取python |
hive | select rege |