正则表达式

 推荐资源站:https://zhimalier.com/

了解语系对正则表达式的影响

为什么语系的数据会影响到正则表示法的输出结果呢?由于不同语系的编码数据并不相同,所以就会造成数据选取结果的差异了。

了解正则表示法

简单地说,正则表示法就是处理字符串的方法,它以“行”为单位来进行字符串的处理。正则表示透过一些特殊字符号的辅助,可以让使用者轻易地达到查找/删除/替换某些特定字符串的工作。

提示:正则表示法是一种表示,只要工具程序支持这种表示法,那么该工具程序就可以用来作为正则表示法的字符串处理之用。

注意:由于正则表达式使用了一些特殊字符,所以所有的正则表达式都要用引号,Linux使用单引号,Android使用双引号。

Android正则表达式

要严格的验证手机号码,必须先要清楚现在已经开放了哪些数字开头的号码段,目前国内号码段分配如下:

移动:134、135、136、137、138、139、150、151、157(TD)、158、159、187、188

联通:130、131、132、152、155、156、185、186

电信:133、153、180、189、(1349卫通)

验证手机号:

public class ClassPathResource {  
    public static boolean isMobileNO(String mobiles) {  
        Pattern p = Pattern  
                .compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");  
        Matcher m = p.matcher(mobiles);  
        System.out.println(m.matches() + "---");  
        return m.matches();  
    }  
   
    public static void main(String[] args) throws IOException {  
        System.out.println(ClassPathResource.isMobileNO("18977778989"));  
    }  
}
public class ClassPathResource {   
    public static boolean isMobileNO(String mobiles) {   
        Pattern p = Pattern   
                .compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");   
        Matcher m = p.matcher(mobiles);   
        System.out.println(m.matches() + "---");   
        return m.matches();   
    }   
    
    public static void main(String[] args) throws IOException {   
        System.out.println(ClassPathResource.isMobileNO("18977778989"));   
    }   
}  

验证邮箱

public static boolean isEmail(String strEmail) {   
    String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
    *[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";  
    Pattern p = Pattern.compile(strPattern);  
    Matcher m = p.matcher(strEmail);  
    return m.matches();  
} 
public static boolean isEmail(String strEmail) {    
    String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
    *[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";   
    Pattern p = Pattern.compile(strPattern);   
    Matcher m = p.matcher(strEmail);   
    return m.matches();   
}  

检查EditText中输入的是否符合规则

public class Main extends Activity {  
    private EditText editText;  
    private Button button;  
   
    @Override 
    public void onCreate(Bundle savedInstanceState) {  
        super.onCreate(savedInstanceState);  
        setContentView(R.layout.main);  
        editText = (EditText) findViewById(R.id.textId);  
        editText.setText("EditText element");  
        button = (Button) findViewById(R.id.btnId);  
        button.setText("Check");  
        button.setOnClickListener(new View.OnClickListener() {  
            @Override 
            public void onClick(View v) {  
                if (checkString(editText.getText().toString())) {  
                    editText.setText("Corect");  
                }  
            }  
        });  
    }  
   
    private boolean checkString(String s) {  
        return s.matches("\\w*[.](Java|cpp|class)");  
    }  
}

常用正则表达式收集

正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。

匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行

匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式:^\s*|\s*
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求

匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}
评注:表单验证时很实用

匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始

匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字

匹配身份证:\d{15}|\d{18}
评注:中国的身份证为15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用

匹配特定数字:
^[1-9]\d*    //匹配正整数
^-[1-9]\d*   //匹配负整数
^-?[1-9]\d*   //匹配整数
^[1-9]\d*|0  //匹配非负整数(正整数 + 0)
^-[1-9]\d*|0   //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*   //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)  //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)  //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0   //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0  //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:
^[A-Za-z]+  //匹配由26个英文字母组成的字符串
^[A-Z]+  //匹配由26个英文字母的大写组成的字符串
^[a-z]+  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+  //匹配由数字和26个英文字母组成的字符串
^\w+  //匹配由数字、26个英文字母或者下划线组成的字符串

Java 正则表达式(跟android没多大区别)

1.1 句点符号

假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符:

1.2 方括号符号

如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组,具体请参见后面介绍。

为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因为在方括号之内你只能匹配单个字符:

1.3 “或”符号

1.4 表示匹配次数的符号

表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数:

假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。

假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:

下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。

1.5 “否”符号

“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。

1.6 圆括号和空白符号

假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:

新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组,然后用ORO API(本文后面详细讨论)提取出它的值。

1.7 其它符号

为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。如表二所示:

例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示:

Linux正则表达式

在使用grep、awk和sed命令时,需要使用正则表达式。
比如我通过grep找代码编译结果中是否有错误。或者是否有我代码的错误。
这里说下正则表达式基本的应用:
• 匹配行首与行尾。
• 匹配数据集。
• 只匹配字母和数字。
• 匹配一定范围内的字符串集。

^只匹配行首
$只匹配行尾
*一个单字符后紧跟*,匹配0个或多个此单字符
[]匹配[]内字符,可以是一个单字符,也可以是字符序列。可以使用 - 表示[]内字符序列范围,如用[1-5]代替[12345]
\用来屏蔽一个元字符的特殊含义。因为有时在shell中一些元字符有特殊含义。\可以使其失去应有含义。
.匹配任意单字符
pattern\{n\}用来匹配前面pattern出现次数。n为次数
pattern\{n,\}含义同上,但次数最少为n
patter\{n,m\}含义同上,但pattern出现次数在n与m之间
  1. 使用句点匹配单字符
    句点“.”可以匹配任意单字符。例如,如果要匹配一个字符串,以be g开头,中间夹一个
    任意字符,那么可以表示为be g . n,“.”可以匹配字符串头,也可以是中间任意字符。
    在ls-l命令中,可以匹配一定权限:
    .. . x . . x . . x
    此格式匹配用户本身,用户组及其他组成员的执行权限。
    ~$ ls -l |grep ...x..x..x
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp
    ~$

  2. 在行首以^匹配字符串或字符序列
    ^只允许在一行的开始匹配字符或单词。例如,使用ls-l命令,并匹配目录。之所以可以
    这样做是因为ls-l命令结果每行第一个字符是d,即代表一个目录。
    ~$ ls -l |grep ^d
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
    drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
    drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp
  3. 在行尾以$匹配字符串或字符
    可以说$与^正相反,它在行尾匹配字符串或字符,$符号放在匹配单词后。假定要匹配以
    单词lisp结尾的所有行,操作为:
    ~$ ls |grep sp$
    lisp
    site-lisp
    ~$
  4. 使用*匹配字符串中的单字符或其重复序列
    使用此特殊字符匹配任意字符或字符串的重复多次表达式。例如:
    找e*m(以e开头m结束的字符串)
    ~$ ls | grep e*m
    emacs
    leim
    ~$
  5. 使用\屏蔽一个特殊字符的含义
    有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么
    是特殊字符?
    一般意义上讲,下列字符可以认为是特殊字符:
    $ . ' " * [ ] ^ | { } \ + ?
    例如:找以.el后缀的文件
    ~/lisp$ ls | grep \.el$
    abbrev.el
    abbrevlist.el
    add-log.el
    align.el
    allout.el
    ansi-color.el
    apropos.el
    arc-mode.el
    array.el
    autoarg.el
    autoinsert.el
    autorevert.el
    avoid.el
    battery.el
    bindings.el
    bookmark.el
    bs.el
    buff-menu.el
    button.el
    calculator.el
    case-table.el
  6. 使用[]匹配一个范围或集合
    使用[]匹配特定字符串或字符串集,可以用逗号将括弧内要匹配的不同字符串分开,但并
    不强制要求这样做(一些系统提倡在复杂的表达式中使用逗号),这样做可以增加模式的可读
    性。
    使用“-”表示一个字符串范围,表明字符串范围从“-”左边字符开始,到“-”右边字
    符结束。
    如果熟知一个字符串匹配操作,应经常使用[]模式。
    假定要匹配任意一个数字,可以使用:
    [0123456789]
    然而,通过使用“-”符号可以简化操作:
    [0-9]
    或任意小写字母
    [a-z]
    要匹配任意字母,则使用:
    [A-Za-z]
    表明从A-Z、a-z的字母范围。
    如要匹配任意字母或数字,模式如下:
    [A-Za-z0-9]
    注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
    [^a-zA-Z]
    匹配任一非字母型字符,而
    [^0-9]
    匹配任一非数字型字符。
    通过最后一个例子,应可猜知除了使用^,还有一些方法用来搜索任意一个特殊字符。
  7. 使用\{\}匹配模式结果出现的次数
    使用*可匹配所有匹配结果任意次,但如果只要指定次数,就应使用\{ \ },此模式有三种
    形式,即:
    pattern\{n\}匹配模式出现n次。
    pattern\{n,\}匹配模式出现最少n次。
    pattern\{n,m}匹配模式出现n到m次之间,n , m为0 - 2 5 5中任意整数。

    例如格式如下:前4个字符是数字,接下来是xx,最后4个也是数字,
    操作如下:
    [0-9]\{4\}XX[0-9]\{4\}
    具体含义如下:
    1)匹配数字出现4次。
    2)后跟代码xx。
    3)最后是数字出现4次。

文章部分内容整理自网络!

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芝麻粒儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值