一、正则表达式的概念
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
二、正则表达式的出由以及意义
正则表达式的“鼻祖”或许可一直追溯到科学家对人类神经系统工作原理的早期研究。美国新泽西州的Warren McCulloch和出生在美国底特律的Walter Pitts这两位神经生理方面的科学家,研究出了一种用数学方式来描述神经网络的新方法,他们创造性地将神经系统中的神经元描述成了小而简单的自动控制元,从而作出了一项伟大的工作革新。
在1951 年,一位名叫Stephen Kleene的数学科学家,他在Warren McCulloch和Walter Pitts早期工作的基础之上,发表了一篇题目是《神经网事件的表示法》的论文,利用称之为正则集合的数学符号来描述此模型,引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式,因而采用了“正则表达式”这个术语。
之后一段时间,人们发现可以将这一工作成果应用于其他方面。Ken Thompson就把这一成果应用于计算搜索算法的一些早期研究,Ken Thompson是 Unix的主要发明人,也就是大名鼎鼎的Unix之父。Unix之父将此符号系统引入编辑器QED,然后是Unix上的编辑器ed,并最终引入grep。Jeffrey Friedl 在其著作《Mastering Regular Expressions (2nd edition)》(中文版译作:精通正则表达式,已出到第三版)中对此作了进一步阐述讲解,如果你希望更多了解正则表达式理论和历史,推荐你看看这本书。
自此以后,正则表达式被广泛地应用到各种UNIX或类似于UNIX的工具中,如大家熟知的Perl。Perl的正则表达式源自于Henry Spencer编写的regex,之后已演化成了pcre(Perl兼容正则表达式Perl Compatible Regular Expressions),pcre是一个由Philip Hazel开发的、为很多现代工具所使用的库。正则表达式的第一个实用应用程序即为Unix中的 qed 编辑器。
三、正则表达式的语法
正则表达式常用字面值字符和特殊符号组成,如下图:
注意:
四、字符串的替换和拆分
替换:Java的String类包含replaceAll和replaceFirst方法用于字符串的替换,返回值为替换后的字符串。
其中replaceAll方法替换所有匹配的子字符串;
replaceFirst方法替换第一个匹配的子字符串。
str. replaceAll(第一个参数,第二个参数) 第一个参数是由正则表达式构成的字符串(集),第二个参数是用于替换的字符串,将字符串str中所有符合 正则表达式构成的字符串集 的子字符串 替换成第二个参数的字符串,replaceFirst方法将字符串str中第一个符合 正则表达式构成的字符串(集) 的子字符串 替换成第二个参数的字符串。
拆分:Java的String类包括的split方法用于字符串的拆分,返回值为字符串数组。
split(regex,limit);
其中regex为正则表达式构成的字符串;limit-1为拆分进行多少次,若limit<=0,则等同于split(regex),即进行最多次。
replacefirst方法示例:
split方法示例: