正则表达式

最新推荐文章于 2022-04-06 21:21:01 发布

芝麻粒儿

最新推荐文章于 2022-04-06 21:21:01 发布

阅读量5.3k

点赞数 1

分类专栏：瞎编瞎写文章标签：正则表达式 linux Android java string

本文链接：https://blog.csdn.net/qq_27489007/article/details/53896256

版权

瞎编瞎写专栏收录该内容

161 篇文章 16 订阅

订阅专栏

推荐资源站：https://zhimalier.com/

了解语系对正则表达式的影响

为什么语系的数据会影响到正则表示法的输出结果呢？由于不同语系的编码数据并不相同，所以就会造成数据选取结果的差异了。

了解正则表示法

简单地说，正则表示法就是处理字符串的方法，它以“行”为单位来进行字符串的处理。正则表示透过一些特殊字符号的辅助，可以让使用者轻易地达到查找/删除/替换某些特定字符串的工作。

提示：正则表示法是一种表示，只要工具程序支持这种表示法，那么该工具程序就可以用来作为正则表示法的字符串处理之用。

注意：由于正则表达式使用了一些特殊字符，所以所有的正则表达式都要用引号，Linux使用单引号，Android使用双引号。

Android正则表达式

要严格的验证手机号码，必须先要清楚现在已经开放了哪些数字开头的号码段，目前国内号码段分配如下：

移动：134、135、136、137、138、139、150、151、157(TD)、158、159、187、188

联通：130、131、132、152、155、156、185、186

电信：133、153、180、189、（1349卫通）

验证手机号：

public class ClassPathResource {  
    public static boolean isMobileNO(String mobiles) {  
        Pattern p = Pattern  
                .compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");  
        Matcher m = p.matcher(mobiles);  
        System.out.println(m.matches() + "---");  
        return m.matches();  
    }  
   
    public static void main(String[] args) throws IOException {  
        System.out.println(ClassPathResource.isMobileNO("18977778989"));  
    }  
}

public class ClassPathResource {   
    public static boolean isMobileNO(String mobiles) {   
        Pattern p = Pattern   
                .compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");   
        Matcher m = p.matcher(mobiles);   
        System.out.println(m.matches() + "---");   
        return m.matches();   
    }   
    
    public static void main(String[] args) throws IOException {   
        System.out.println(ClassPathResource.isMobileNO("18977778989"));   
    }   
}

验证邮箱：

public static boolean isEmail(String strEmail) {   
    String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
    *[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";  
    Pattern p = Pattern.compile(strPattern);  
    Matcher m = p.matcher(strEmail);  
    return m.matches();  
}

public static boolean isEmail(String strEmail) {    
    String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
    *[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";   
    Pattern p = Pattern.compile(strPattern);   
    Matcher m = p.matcher(strEmail);   
    return m.matches();   
}

检查EditText中输入的是否符合规则：

public class Main extends Activity {  
    private EditText editText;  
    private Button button;  
   
    @Override 
    public void onCreate(Bundle savedInstanceState) {  
        super.onCreate(savedInstanceState);  
        setContentView(R.layout.main);  
        editText = (EditText) findViewById(R.id.textId);  
        editText.setText("EditText element");  
        button = (Button) findViewById(R.id.btnId);  
        button.setText("Check");  
        button.setOnClickListener(new View.OnClickListener() {  
            @Override 
            public void onClick(View v) {  
                if (checkString(editText.getText().toString())) {  
                    editText.setText("Corect");  
                }  
            }  
        });  
    }  
   
    private boolean checkString(String s) {  
        return s.matches("\\w*[.](Java|cpp|class)");  
    }  
}

常用正则表达式收集

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

匹配中文字符的正则表达式： [\u4e00-\u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^\x00-\xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：\n\s*\r
评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^\s*|\s*
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}
评注：表单验证时很实用

匹配国内电话号码：\d{3}-\d{8}|\d{4}-\d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]\d{5}(?!\d)
评注：中国邮政编码为6位数字

匹配身份证：\d{15}|\d{18}
评注：中国的身份证为15位或18位

匹配ip地址：\d+\.\d+\.\d+\.\d+
评注：提取ip地址时有用

匹配特定数字：
^[1-9]\d*　　 //匹配正整数
^-[1-9]\d* 　 //匹配负整数
^-?[1-9]\d*　　 //匹配整数
^[1-9]\d*|0　 //匹配非负整数（正整数 + 0）
^-[1-9]\d*|0　　 //匹配非正整数（负整数 + 0）
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*　　 //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)　 //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)　 //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：
^[A-Za-z]+　　//匹配由26个英文字母组成的字符串
^[A-Z]+　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+　　//匹配由数字和26个英文字母组成的字符串
^\w+　　//匹配由数字、26个英文字母或者下划线组成的字符串

Java 正则表达式(跟android没多大区别)

1.1 句点符号

假设你在玩英文拼字游戏，想要找出三个字母的单词，而且这些单词必须以“t”字母开头，以“n”字母结束。另外，假设有一本英文字典，你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式，你可以使用一个通配符——句点符号“.”。这样，完整的表达式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，还匹配“t#n”、“tpn”甚至“t n”，还有其他许多无意义的组合。这是因为句点符号匹配所有字符，包括空格、Tab字符甚至换行符：

1.2 方括号符号

如果除了上面匹配的所有单词之外，你还想要匹配“toon”，那么，你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号，因为方括号只允许匹配单个字符；这里必须使用圆括号“()”。圆括号还可以用来分组，具体请参见后面介绍。

为了解决句点符号匹配范围过于广泛这一问题，你可以在方括号（“[]”）里面指定看来有意义的字符。此时，只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，因为在方括号之内你只能匹配单个字符：

1.3 “或”符号

1.4 表示匹配次数的符号

表一显示了表示匹配次数的符号，这些符号用来确定紧靠该符号左边的符号出现的次数：

假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中，连字符（“-”）有着特殊的意义，它表示一个范围，比如从0到9。因此，匹配社会安全号码中的连字符号时，它的前面要加上一个转义字符“\”。

假设进行搜索的时候，你希望连字符号可以出现，也可以不出现——即，999-99-9999和999999999都属于正确的格式。这时，你可以在连字符号后面加上“？”数量限定符号，如图二所示：

下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。

1.5 “否”符号

“^”符号称为“否”符号。如果用在方括号内，“^”表示不想要匹配的字符。

1.6 圆括号和空白符号

假设要从格式为“June 26, 1951”的生日日期中提取出月份部分，用来匹配该日期的正则表达式可以如图五所示：

新出现的“\s”符号是空白符号，匹配所有的空白字符，包括Tab字符。如果字符串正确匹配，接下来如何提取出月份部分呢？只需在月份周围加上一个圆括号创建一个组，然后用ORO API（本文后面详细讨论）提取出它的值。

1.7 其它符号

为简便起见，你可以使用一些为常见正则表达式创建的快捷符号。如表二所示：

例如，在前面社会安全号码的例子中，所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示：

Linux正则表达式

在使用grep、awk和sed命令时，需要使用正则表达式。
比如我通过grep找代码编译结果中是否有错误。或者是否有我代码的错误。
这里说下正则表达式基本的应用：
• 匹配行首与行尾。
• 匹配数据集。
• 只匹配字母和数字。
• 匹配一定范围内的字符串集。

^	只匹配行首
$	只匹配行尾
*	一个单字符后紧跟*，匹配0个或多个此单字符
[]	匹配[]内字符，可以是一个单字符，也可以是字符序列。可以使用 - 表示[]内字符序列范围，如用[1-5]代替[12345]
\	用来屏蔽一个元字符的特殊含义。因为有时在shell中一些元字符有特殊含义。\可以使其失去应有含义。
.	匹配任意单字符
pattern\{n\}	用来匹配前面pattern出现次数。n为次数
pattern\{n,\}	含义同上，但次数最少为n
patter\{n,m\}	含义同上，但pattern出现次数在n与m之间

使用句点匹配单字符
句点“.”可以匹配任意单字符。例如，如果要匹配一个字符串，以be g开头，中间夹一个
任意字符，那么可以表示为be g . n，“.”可以匹配字符串头，也可以是中间任意字符。
在ls-l命令中，可以匹配一定权限：
.. . x . . x . . x
此格式匹配用户本身，用户组及其他组成员的执行权限。
~$ ls -l |grep ...x..x..x
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp
~$
在行首以^匹配字符串或字符序列
^只允许在一行的开始匹配字符或单词。例如，使用ls-l命令，并匹配目录。之所以可以
这样做是因为ls-l命令结果每行第一个字符是d，即代表一个目录。
~$ ls -l |grep ^d
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp
在行尾以$匹配字符串或字符
可以说$与^正相反，它在行尾匹配字符串或字符，$符号放在匹配单词后。假定要匹配以
单词lisp结尾的所有行，操作为：
~$ ls |grep sp$
lisp
site-lisp
~$
使用*匹配字符串中的单字符或其重复序列
使用此特殊字符匹配任意字符或字符串的重复多次表达式。例如：
找e*m（以e开头m结束的字符串）
~$ ls | grep e*m
emacs
leim
~$
使用\屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串，而它们包含了系统指定为特殊字符的一个字符。什么
是特殊字符？一般意义上讲，下列字符可以认为是特殊字符：
$ . ' " * [ ] ^ | { } \ + ?
例如：找以.el后缀的文件
~/lisp$ ls | grep \.el$
abbrev.el
abbrevlist.el
add-log.el
align.el
allout.el
ansi-color.el
apropos.el
arc-mode.el
array.el
autoarg.el
autoinsert.el
autorevert.el
avoid.el
battery.el
bindings.el
bookmark.el
bs.el
buff-menu.el
button.el
calculator.el
case-table.el
使用[]匹配一个范围或集合
使用[]匹配特定字符串或字符串集，可以用逗号将括弧内要匹配的不同字符串分开，但并
不强制要求这样做（一些系统提倡在复杂的表达式中使用逗号），这样做可以增加模式的可读
性。
使用“-”表示一个字符串范围，表明字符串范围从“-”左边字符开始，到“-”右边字
符结束。
如果熟知一个字符串匹配操作，应经常使用[]模式。
假定要匹配任意一个数字，可以使用：
[0123456789]
然而，通过使用“-”符号可以简化操作：
[0-9]
或任意小写字母
[a-z]
要匹配任意字母，则使用：
[A-Za-z]
表明从A-Z、a-z的字母范围。
如要匹配任意字母或数字，模式如下：
[A-Za-z0-9]
注意^符号的使用，当直接用在第一个括号里，意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符，而
[^0-9]
匹配任一非数字型字符。
通过最后一个例子，应可猜知除了使用^，还有一些方法用来搜索任意一个特殊字符。
使用\{\}匹配模式结果出现的次数
使用*可匹配所有匹配结果任意次，但如果只要指定次数，就应使用\{ \ }，此模式有三种
形式，即：
pattern\{n\}匹配模式出现n次。
pattern\{n,\}匹配模式出现最少n次。
pattern\{n,m}匹配模式出现n到m次之间，n , m为0 - 2 5 5中任意整数。
例如格式如下：前4个字符是数字，接下来是xx，最后4个也是数字，
操作如下：
[0-9]\{4\}XX[0-9]\{4\}
具体含义如下：
1)匹配数字出现4次。
2)后跟代码xx。
3)最后是数字出现4次。

文章部分内容整理自网络！

芝麻粒儿

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
正则表达式

推荐资源站：https://zhimalier.com/了解语系对正则表达式的影响为什么语系的数据会影响到正则表示法的输出结果呢？由于不同语系的编码数据并不相同，所以就会造成数据选取结果的差异了。了解正则表示法简单地说，正则表示法就是处理字符串的方法，它以“行”为单位来进行字符串的处理。正则表示透过一些特殊字符号的辅助，可以让使用者轻易地达到查找/删除/替换某些特定字符串的工...
复制链接

扫一扫