一些正则表达式

1.

\s 空白
\d 数字,相当于[0-9]
\w 字母,数字或下划线,相当于[a-zA-Z0-9_]
. 非换行符\n

"\s","\d","\w","\b" 对应的大写字母表示相反的意义。


 [ ] 匹配其中任意一个字符
 [^ ] 匹配其中字符之外的任意一个字符

次数匹配符,对前面的指定字符起作用:

? 相当于{0,1}

 *  相当于{0,}
+  相当于{1,}

抽象特殊符号:边界匹配符
^ 行首
$ 行尾
\b 单词边界,"\b" 本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是 "\w" 范围,另一边是 非"\w" 的范围。
\B 与\b相反,非单词边界,即左右两边都是 "\w" 范围或者左右两边都不是 "\w" 范围时的字符缝隙。
\G 前一个匹配的结束

| 或,匹配左边或右边的表达式,不限制为单个字符,可以在小括号内使用。

( ) 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰;
    取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到;


2.一些高级规则

贪婪模式:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。

非贪婪模式:在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 "不匹配"。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。

反向引用:表达式引擎会将小括号 ( )包含的表达式所匹配到的字符串记录下来,以使它可以单独获取。在应用中,当用某种边界来查找,而所要获取的内容又不包含边界时,使用小括号来指定所要的范围。比如 "<td>(.*?)</td>"。
               小括号包含的表达式所匹配到的字符串不仅在匹配结束后可以使用,在匹配过程中也可以使用。表达式后边的部分,可以引用前面 "括号内的子匹配已经匹配到的字符串"。引用方法是 "\" 加上一个数字,例如"\1" 引用第1对括号内匹配到的字符串,"\2" 引用第2对括号内匹配到的字符串……,如果一对括号内包含另一对括号,则外层的括号先排序号。哪一对的左括号 "(" 在前,那这一对就先排序号。

                如果希望匹配结果不进行记录供以后使用,可以使用 "(?:xxxxx)" 格式,它属于括号 "( )" 内的子表达式。

正向预搜索:

"(?=xxxxx)" :所在缝隙的右侧能够匹配 xxxxx 这部分表达式,它本身不被放入匹配结果中。

"(?!xxxxx)"  :所在缝隙的右侧不能匹配 xxxxx 这部分表达式。

反向预搜索:

"(?<=xxxxx)":反向预搜索要求的条件是:所在缝隙的 "左侧",两种格式分别要求必须能够匹配和必须不能够匹配指定表达式,而不是去判断右侧。与 "正向预搜                        索" 一样的是:它们都是对所在缝隙的一种附加条件,本身都不匹配任何字符。

"(?<!xxxxx)" :



4.应用

   “\d+\.?\d*” : 匹配数值,可以是整数,浮点数。

   "\d+\.?\d*|\.\d+" : 匹配数值,可以是整数,浮点数,或者例如 .5这样省略了0的小数。

   "内容1.*?内容2":匹配一行内的任意字符可使用 

    (?<=内容1).*?(?=内容2):摆脱 内容1,内容2   

    "(\w)\1{4,}" :要求 "\w" 范围的同一个字符至少重复5次, "\w{5,}"只要求有至少5个字符挨着。

       "/<[\/\!]*?[^<>]*?>/is" :所有html标记



6.preg_replace()

   mixed preg_replace ( mixed $pattern , mixed $replacement , mixed $subject [, int $limit = -1 [, int &$count ]] )

   第 4 个参数 $limit,那么仅替换 $limit 个匹配,如果省略该参数或者其值为 -1,那么所有的匹配项都会被替换。

   使用 preg_replace() 函数常使用反向引用。注意对替换模式在一个逆向引用后面紧跟着一个数字时 --- 如 \\11 ,这里分为两部分:\\1 引用一个子模式匹配文本,1 表示一个单纯的数字 --- 不能如这种形式引用,否则函数就搞不清楚到底是要引用第 11 个匹配子模式还是引用第 1 个匹配子模式且另加上一个单纯的数字 1。解决的办法是使用:\${1}1 这种形式。这样会形成一个隔离的 $1 逆向引用,而使另一个 1 成为单纯的文字。
    preg_replace() 函数有一个专属修正符e。如果设定了该修正符,那么 preg_replace() 在替换字符串时对逆向引用做正常的替换,将其作为 PHP 代码求值,并用其结果来替换所搜索的字符串。要确保第 2 个参数构成一个合法的 PHP 代码字符串,否则 PHP 会在报告出现语法解析错误。
示例:preg_replace("/(<\/?)(\w+)([^>]*>)/e","'\\1'.strtoupper('\\2').'\\3'","这个文本中有<b>粗体</b>和<u>带有下划线</u>以及<i>斜体</i>"); 

   preg_replace() 函数的前 3 个参数均可以使用数组。如果第 3 个参数是一个数组,那么会对它里面的每个元素都进行搜索和替换,并返回替换后的一个数组。

   如果第 1 个参数和第 2 个参数都是数组,则 preg_replace() 函数会依次从中分别取出对应的值来对第 3 个参数中的文本进行搜索和替换:

   如果第 2 个参数中的值比第 1 个参数中的少,则用空字符串作为余下的替换值:

   如果第 1 个参数是数组而第 2 个参数是字符串,则对第 1 个参数中的每个值都用此字符串作为替代之,反过来就没有意义了。



匹配任意字符: 比如要 <body> 标签里的所有内容,包括换行符、空白符号等

    [/s/S]* 它的意思是任意空白字符和非空白字符。同理,也可以用 “[/d/D]*”、“[/w/W]*” 来表示。例如:"<body[\\s\\S]+body>"

 匹配到结尾: "内容[//s|//S]*"

注意:在双引号内要多写一个转义符/

2.


NSString* jsonString=@"<body>aabbcc\nddeeff</body>";
str=[jsonString stringByMatching:@"<body>([\\s\\S]+?)</body>" capture:1];


Regexkit Lite和iPhone解析

http://www.regexlab.com/zh/regref.htm

http://www.cocoachina.com/bbs/read.php?tid-18111.html

http://baike.baidu.com/view/94238.htm


http://www.minroad.com/?p=85

http://regexkit.sourceforge.net/#RegexKitLite

http://regexkit.sourceforge.net/RegexKitLite/index.html#NSString_RegexKitLiteAdditi*****__Xcode3IntegratedDocumentation

 



private final static String regxpForHtml = "<([^>]*)>"; // 过滤所有以<开头以>结尾的标签
private final static String regxpForImgTag = "<\\s*img\\s+([^>]*)\\s*>"; // 找出IMG标签
private final static String regxpForImaTagSrcAttrib = "src=\"([^\"]+)\""; // 找出IMG标签的SRC属性

 

2. java

   str.split("//^");

   str.split("//^ | //.");

 

   字符串>aaa<,使用正则表达式>(.*?)<,在java中的结果为>aaa<,使用其它工具的结果为aaa。

 

   替换掉所有的非数字 id=id.replaceAll("[^0-9]", "");

 

3.判断是否匹配.

    5到12个数字:  "^//d{5,12}$"

    11位数字:  "^//d{11}$"

    不限长数字:"^\d+$

    6到32个 任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个:   "^\\w{6,32}$"

    6到32个  任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个,但不包含@:"^((?!@)\\w){6,32}$"

    6到32个 数字且字母: "(?!@)(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{6,32})$"

     6到32个 数字且字母,但不包含@:"(?!@)(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{6,32})$"

    6到32个 数字且字母,不能全是数字,不包含@:"(?!@)(?!^[0-9]*$)^([a-zA-Z0-9]{6,32})$"

    邮箱:^(\\w+@(\\w+\\.)+\\w{2,3})?$

   简化邮箱判断  ^(.+@.+)?$ ,即只要@符号前和后都必须有一个字符就可以。


注意:/ 约束条件/,//之间的是约束条件,^是开始字符,$是结束字符,不起作用的情况下可以前面加^,并以+$是结束字符

3、

4、表示


5、“否”符号 “^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。



常见实例:

1、   非空匹配:/\S+/

2、   表示字符串不含空格:^[\s]*$ 

3、   如果想不包括空格及其它空白字符    ^[^\s]*$

4、   要插入一个反斜杠,那就得用"\\\\",尤其在java代码中。关于unicode的编码可以查看电脑菜单中的

附件——系统工具——字符映射表,注意要判断字符串中是中括号“[”和“]”,在java代码中采用这样的方法:(加两个\\)String constraint = "^[\\u005b\\u005d]+$";

5、  数字和字母的组合,不能只是数字或只是字母:/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,})$/

6、  字符串是否为连续的中文字符(不包含英文及其他任何符号和数字):/^[\u4e00-\u9fa5]+$/

7、   输入必须是双字节字符:/^[^\x00-\xff]+$/

8、   不能输入中文/^[^\u4e00-\u9fa5]+$/ (中文字符不止  \u4E00-\u9FA5 这个区,还有 \uF900-\uFA2D 这个区)

9、  字符串仅包含英文,不包含其它的:/^[a-zA-Z]+$/

10、              字符串仅包含数字,不包含其它的:/^\d+$/

11、              字符串仅包含数字、英文和下划线:/^\w+$/

12、 字符串仅包含数字、英文和下划线且不能为空:/\w+/

13、 字符串仅包含数字、英文和下划线和空格:/^[\w\s]+$/

14、 小数点后只能两位,如果小数点后便没有数字的话,不能出现小数点:/^[0-9]+$|^[0-9]+\.[0-9]{1,2}$/

15、 可包含大小写英文字母,数字,字符_,字符-:^[A-Za-z0-9_-]+$

16、 字符串仅包含数字、英文且不能为空/^[0-9a-zA-Z_]*$/

17、 输入只包含中文、数字和字母:/^[a-z\A-Z\d\u4E00-\u9FA5]+$/

18、 字母和数字的组合,不能单独输入字母或数字:/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,})$/

19、 输入字母和数字的组合,6位到15位:/([a-zA-Z0-9]{6,15})?/

20、 电话号码的验证:/([0-9]{3,4}[-][0-9]{6,8}([-][0-9]{3,6})?)?/

21、 电子邮件的验证:/(\w+@(\w+\.)+\w{2,3})?/

22、 Ip地址的验证表达式:/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/

23、 必须为正数,且数字第一个不能为0:/^([1-9][0-9]*)$/

24、 日期判断正则表达式:      

YYYY-MM-DD基本上把闰年和2月等的情况都考虑进去了
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-))$

下面的是加了时间验证的
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-)) (20|21|22|23|[0-1]?\d):[0-5]?\d:[0-5]?\d$

25、 只能输入数字:“^[0-9]*$”

26、 只能输入n位的数字:“^\d{n}$”

27、 只能输入至少n位数字:“^\d{n,}$”

28、 只能输入m-n位的数字:“^\d{m,n}$”

29、 只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$”

30、 只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$”

31、 只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$”

32、 只能输入非零的正整数:“^\+?[1-9][0-9]*$”

33、 只能输入非零的负整数:“^\-[1-9][0-9]*$”

34、 只能输入长度为3的字符:“^.{3}$”

35、 只能输入由26个英文字母组成的字符串:“^[A-Za-z]+$”

36、 只能输入由26个大写英文字母组成的字符串:“^[A-Z]+$”

37、 只能输入由26个小写英文字母组成的字符串:“^[a-z]+$”

38、 只能输入由数字和26个英文字母组成的字符串:“^[A-Za-z0-9]+$”

39、 只能输入由数字、26个英文字母或者下划线组成的字符串:“^\w+$”

40、 匹配特定数字:

^[1-9]d*$    //匹配正整数

^-[1-9]d*$   //匹配负整数

^-?[1-9]d*$   //匹配整数

Pattern p = Pattern.compile("^(-?[1-9]\\d*)|0|[1-9]\\d*+$");

^[1-9]d*|0$  //匹配非负整数(正整数 + 0)

^-[1-9]d*|0$   //匹配非正整数(负整数 + 0)

^[1-9]d*.d*|0.d*[1-9]d*$   //匹配正浮点数

^-([1-9]d*.d*|0.d*[1-9]d*)$  //匹配负浮点数

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$  //匹配浮点数

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$   //匹配非负浮点数(正浮点数 + 0)

^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$  //匹配非正浮点数(负浮点数 + 0)

41、 验证用户密码:“^[a-zA-Z]\w{5,17}$”正确格式为:以字母开头,长度在6-18之间, 只能包含字符、数字和下划线。

42、 验证是否含有^%&',;=?$\"等字符:“[^%&',;=?$\x22]+”

43、 只能输入汉字:“^[\u4e00-\u9fa5],{0,}$”

44、 验证Email地址:“^\w+[-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

45、 验证Email地址:/.+@.+\.[a-z]+/

46、 验证InternetURL:“^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$”

47、 验证电话号码:“^(\(\d{3,4}\)|\d{3,4}-)?\d{7,8}$” 正确格式为:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”, “XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。

48、 匹配国内电话号码:d{3}-d{8}|d{4}-d{7}匹配形式如 0511-4405222 或 021-87888822

49、 验证身份证号(15位或18位数字):“^\d{15}|\d{}18$”

50、 验证一年的12个月:“^(0?[1-9]|1[0-2])$” 正确格式为:“01”-“09”和“1”“12”

51、 验证一个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$” 正确格式为:“01”“09”和“1”“31”。

52、 匹配空行的正则表达式:/\n[\s| ]*\r/ 可以用来删除空白行

53、 匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/

54、 匹配首尾空格的正则表达式:/(^\s*)|(\s*$)/

55、 匹配腾讯QQ号:[1-9][0-9]{4,}腾讯QQ号从10000开始

56、 匹配中国邮政编码:[1-9]d{5}(?!d) 中国邮政编码为6位数字

57、 匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

58、 验证录入的数据只能介于114-116之间,包括小数:/^(114|115|116)(\.\d+)?$/


参考

http://gaojiewyh.iteye.com/blog/405217

http://baike.baidu.com/view/94238.htm


]iPhne开发使用正则表达式

http://www.cnblogs.com/visen-0/archive/2012/02/17/2355921.html


判断内容是否为空,

BOOL contentEmpty=[content length]==0;
    if(!contentEmpty)
    {
        contentEmpty=[content isMatchedByRegex:@"^\\s*$"];//只包括空格、制表符、换页符等空白字符的其中任意一个
    }


去掉html标签,只保留标签之间的文本

NSString* from=[text stringByReplacingOccurrencesOfRegex:@"<[^>]*>" withString:@""];

 

//去掉尾部空格

regex=@"\\s+$";       
 if([htmlContent isMatchedByRegex:regex])        
{           
 [htmlContent replaceOccurrencesOfRegex:regex withString:@""];        
}

 

 

 

ID-CS3()

http://wenku.baidu.com/view/cfc46b3431126edb6f1a10d7.html


10.php正则示例

<?php 
$str="http://www.duoxue8.com.orgas2223adfsf0s4df0sdfsdf"; 
echo preg_replace("/0/","",$str);//去掉0字符,相当于 replace的功能, preg_replace("/0/","A",$str); 这样就是将0变成A的意思了 
echo preg_replace("/[0-9]/","",$str);//去掉所有数字 
echo preg_replace("/[a-z]/","",$str); //去掉所有小写字母 
echo preg_replace("/[A-Z]/","",$str); //去掉所有大写字母 
echo preg_replace("/[a-z,A-Z]/","",$str); //去掉所有字母 
$str="as2223adfsAAf0s4df0s中国人dD中南海DDfsdf"; 
echo preg_replace("/[a-z,A-Z,0-9]/","",$str); //去掉所有字母和数字 
?>
匹配的字符串必须加 / /


<?php 
$str="acsdcs<55555555>sc<6666>sdwww.isoji.orgcd"; 
echo preg_replace("/<.*>/","",$str);//这个是表示去除以<开头,以>结尾的那部份,输出结果是:acsdcssdcd, .* 是表示任何字符,不管<>包住的是什么都去掉,其中. 表示任意字符, * 表示任意个数。

如果不想是任何个数呢? 
$str="acsdcs<55555555>sc<6666>sdcd"; 
echo preg_replace("/<.{4}>/","",$str); //此时输出:acsdcs<55555555>scsdcd,因为{4}指定了条件:<>内为4个字符的才满足条件。又学到了一个知识点{数字} 表示指定前面的个数,*就表示是任意个(0--无限个)



11.正则效率

    滥用点号、星号和加号是不环保、不负责任的做法;

     [^<],它保证了文本的范围不会超出下一个小于号所在的位置;

     每使用一个普通括号()而不是非捕获型括号(?:…),就会保留一部分内存等着再次访问。这样无限次地运行次数,无异于一根根稻草的堆加,终于能将骆驼压死。养成合理使用(?:…)括号的习惯。

     将一条复杂的正则表达式拆分为两条或多条简单的正则表达式,编程难度会降低,运行效率会提升;

     使用字符组代替分支条件,如使用[a-d]表示a~d之间的字母,而不是使用(a|b|c|d);




  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值