转载一个正则表达式学习的好文章

关于正则表达式的基本分类:

1、基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs) 
2、扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs) 
3、Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs) 


 

关于基本正则表达式和扩展正则表达式的一些用法:

基本正则表达式

元数据

意义和范例

^word

搜寻以word开头的行。

例如:搜寻以#开头的脚本注释行

grep –n ‘^#’ regular.txt

word$

搜寻以word结束的行

例如,搜寻以‘.’结束的行

grep –n ‘.$’ regular.txt

.

匹配任意一个字符。

例如:grep –n ‘e.e’ regular.txt

匹配e和e之间有任意一个字符,可以匹配eee,eae,eve,但是不匹配ee。

\

转义字符。

例如:搜寻’,’是一个特殊字符,在正则表达式中有特殊含义。必须要先转义。

grep –n ‘\” regular.txt

*

前面的字符重复0到多次。

例如匹配gle,gogle,google,gooogle等等

grep –n ‘go*gle’ regular.txt

[list]

匹配一系列字符中的一个。

例如:匹配gl,gf。

grep –n ‘g[lf]’ regular.txt

[n1-n2]

匹配一个字符范围中的一个字符。

例如:匹配数字字符

grep –n ‘[0-9]’ regular.txt

[^list]

匹配字符集以外的字符

例如:grep –n ‘[^o]‘ regular.txt

匹配非o字符

\{n1,n2\}

前面的字符重复n1,n2次

例如:匹配google,gooogle。

grep –n ‘go\{2,3\}gle’ regular.txt

\<word

单词是的开头。

例如:匹配以g开头的单词

grep –n ‘\<g’ regular.txt

word\>

匹配单词结尾

例如:匹配以tion结尾的单词

grep –n ‘tion\>’ regular.txt


 

扩展正则表达式

     grep一般情况下支持基本正则表达式,可以通过参数-E支持扩展正则表达式,另外grep单独提供了一个扩展命令叫做egrep用来支持扩展正则表达式,这条命令和grep -E等价。虽然一般情况下,基本正则表达式就够用了。特殊情况下,复杂的扩展表达式,可以简化字符串的匹配。

     扩展正则表达式就是在基本正则表达式的基础上,增加了一些元数据。

元数据

意义和范例

+

重复前面字符1到多次。

例如:匹配god,good,goood等等字符串。

grep –nE go+d’ regular.txt

?

匹配0或1次前面的字符

例如,匹配gd,god

grep –nE ‘go?d’ regular.txt

|

或(or)的方式匹配多个字串  
例如:grep –nE ‘god|good’ regular.txt

匹配god或者good。

()

匹配整个括号内的字符串,原来都是匹配单个字符

例如:搜寻good或者glad

grep –nE ‘g(oo|la)’ regular.txt

()

前面的字符重复0到多次。

例如匹配gle,gogle,google,gooogle等等

grep –nE ‘go*gle’ regular.txt

 

 

元字符

描述

.

匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、r t,但是不匹配root。

$

匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾

  但是不能匹配字符串"They are a bunch of weasels."

^

匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始,但是不能匹配"What and When in the"

*

匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。

\

这是引用符,用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式\$被用来匹配美元符号,而不是行尾,类似的,正则表达式\.用来匹配点字符,而不是任何字符的通配符。

[ ]

  [c1-c2]

  [^c1-c2]

匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括号中使用连字符-来指定字符的区间,例如正则表达式[0-9]可以匹配任何数字字符;还可以制定多个区间,例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”,要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符,例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。

\< \>

匹配词(word)的开始(\<)和结束(\>)。例如正则表达式\<the\>能够匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:这个元字符不是所有的软件都支持的。

\( \)

将 \( 和 \) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 \1 到\9 的符号来引用。

|

将两个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:这个元字符不是所有的软件都支持的。

+

匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。

?

匹配0或1个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。

\{i\}

  \{i,j\}

匹配指定数目的字符,这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]\{3\} 能够匹配字符"A"后面跟着正好3个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]\{4,6\} 匹配连续的任意4个、5个或者6个数字字符。注意:这个元字符不是所有的软件都支持的。

 最简单的元字符是点,它能够匹配任何单个字符(注意不包括换行符)。假定有个文件test.txt包含以下几行内容:

  he is a rat

  he is in a rut

  the food is Rotten

  I like root beer

  我们可以使用grep命令来测试我们的正则表达式,grep命令使用正则表达式去尝试匹配指定文件的每一行,并将至少有一处匹配表达式的所有行显示出来。命令

  grep r.t test.txt

  在test.txt文件中的每一行中搜索正则表达式r.t,并打印输出匹配的行。正则表达式r.t匹配一个r接着任何一个字符再接着一个t。所以它将匹配文件中的ratrut,而不能匹配Rotten中的Rot,因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母,应该使用字符区间元字符(方括号)。正则表达式[Rr]能够同时匹配Rr。所以,要想匹配一个大写或者小写的r接着任何一个字符再接着一个t就要使用这个表达式:[Rr].t

  要想匹配行首的字符要使用抑扬字符(^——又是也被叫做插入符。例如,想找到text.txt中行首"he"打头的行,你可能会先用简单表达式he,但是这会匹配第三行的the,所以要使用正则表达式^he,它只匹配在行首出现的h

  有时候指定除了×××都匹配会比较容易达到目的,当抑扬字符(^)出现在方括号中是,它表示排除,例如要匹配he ,但是排除前面是t or s的情性(也就是theshe),可以使用:[^st]he

  可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母,包括大写和小写的;正则表达式[A-Za-z][A-Za-z]* 匹配一个字母后面接着0或者多个字母(大写或者小写)。当然我们也可以用元字符+做到同样的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达式语法支持情况。

  要指定特定数量的匹配,要使用大括号(注意必须使用反斜杠来转义)。想匹配所有1001000的实例而排除1010000,可以使用:10\{2,3\},这个正则表达式匹配数字1后面跟着2或者30的模式。在这个元字符的使用中一个有用的变化是忽略第二个数字,例如正则表达式0\{3,\} 将匹配至少3个连续的0

简单的例子

  这里有一些有代表性的、比较简单的例子。

  

vi 命令

作用

:%s/ */ /g

把一个或者多个空格替换为一个空格

:%s/ *$//

去掉行尾的所有空格

:%s/^/ /

在每一行头上加入一个空格

:%s/^[0-9][0-9]* //

去掉行首的所有数字字符

:%s/b[aeio]g/bug/g

将所有的bagbegbigbog改为bug

:%s/t\([aou]\)g/h\1t/g

将所有tagtogtug分别改为hathothug(注意用group的用法和使用\1引用前面被匹配的字符)

中级的例子

  1

  将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里abc可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换:

  之前 之后

  foo(10,7,2) foo(7,10,2)

  foo(x+13,y-2,10) foo(y-2,x+13,10)

  foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

  下面这条替换命令能够实现这一魔法:

  :%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)/g

  现在让我们把它打散来加以分析。写出这个表达式的基本思路是找出foo()和它的括号中的三个参数的位置。第一个参数是用这个表达式来识别的::\([^,]*\),我们可以从里向外来分析它:

  [^,] 除了逗号之外的任何字符

  [^,]* 0或者多个非逗号字符

  \([^,]*\) 将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式中引用它

  \([^,]*\), 我们必须找到0或者多个非逗号字符后面跟着一个逗号,并且非逗号字符那部分要标记出来以备后用。

  现在正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用[^,]*这样的一个表达式,而不是更加简单直接的写法,例如:.*,来匹配第一个参数呢?设想我们使用模式.*来匹配字符串"10,7,2",它应该匹配"10,"还是"10,7,"?为了解决这个两义性(ambiguity),正则表达式规定一律按照最长的串来,在上面的例子中就是"10,7,",显然这样就找出了两个参数而不是我们期望的一个。所以,我们要使用[^,]*来强制取出第一个逗号之前的部分。

  这个表达式我们已经分析到了:foo(\([^,]*\),这一段可以简单的翻译为当你找到foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样,只是我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数,因为我们不需要调整它的位置,但是这样的模式能够保证我们只去替换那些有三个参数的foo()方法调用,在foo()是一个重载(overoading)方法时这种明确的模式往往是比较保险的。然后,在替换部分,我们找到foo()的对应实例,然后利用标记好的部分进行替换,是的第一和第二个参数交换位置。

  2

  假设有一个CSVcomma separated value)文件,里面有一些我们需要的信息,但是格式却有问题,目前数据的列顺序是:姓名,公司名,州名缩写,邮政编码,现在我们希望讲这些数据重新组织,以便在我们的某个软件中使用,需要的格式为:姓名,州名缩写-邮政编码,公司名。也就是说,我们要调整列顺序,还要合并两个列来构成一个新列。另外,我们的软件不能接受逗号前后面有任何空格(包括空格和制表符)所以我们还必须要去掉逗号前后的所有空格。

  这里有几行我们现在的数据:

  Bill Jones, HI-TEK Corporation , CA, 95011

  Sharon Lee Smith, Design Works Incorporated, CA, 95012

  B. Amos , Hill Street Cafe, CA, 95013

  Alexander Weatherworth, The Crafts Store, CA, 95014

  ...

  我们希望把它变成这个样子:

  Bill Jones,CA 95011,HI-TEK Corporation

  Sharon Lee Smith,CA 95012,Design Works Incorporated

  B. Amos,CA 95013,Hill Street Cafe

  Alexander Weatherworth,CA 95014,The Crafts Store

  ...

  我们将用两个正则表达式来解决这个问题。第一个移动列和合并列,第二个用来去掉空格。

  下面就是第一个替换命令:

  :%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/\1,\3 \4,\2/

  这里的方法跟例1基本一样,第一个列(姓名)用这个表达式来匹配:\([^,]*\),即第一个逗号之前的所有字符,而姓名内容被用\1标记下来。公司名和州名缩写字段用同样的方法标记为\2\3,而最后一个字段用\(.*\)来匹配("匹配所有字符直到行末")。替换部分则引用上面标记的那些内容来进行构造。

  下面这个替换命令则用来去除空格:

  :%s/[ \t]*,[ \t]*/,/g

  我们还是分解来看:[ \t]匹配空格/制表符,[ \t]* 匹配0或多个空格/制表符,[ \t]*,匹配0或多个空格/制表符后面再加一个逗号,最后,[ \t]*,[ \t]*匹配0或多个空格/制表符接着一个逗号再接着0或多个空格/制表符。在替换部分,我们简单的我们找到的所有东西替换成一个逗号。这里我们使用了结尾的可选的g参数,这表示在每行中对所有匹配的串执行替换(而不是缺省的只替换第一个匹配串)。

  3

  假设有一个多字符的片断重复出现,例如:

  Billy tried really hard

  Sally tried really really hard

  Timmy tried really really really hard

  Johnny tried really really really really hard

  而你想把"really""really really",以及任意数量连续出现的"really"字符串换成一个简单的"very"simple is good!),那么以下命令:

  :%s/\(really \)\(really \)*/very /

  就会把上述的文本变成:

  Billy tried very hard

  Sally tried very hard

  Timmy tried very hard

  Johnny tried very hard

  表达式\(really \)*匹配0或多个连续的"really "(注意结尾有个空格),而\(really \)\(really \)* 匹配1个或多个连续的"really "实例。

不同工具中的正则表达式

  OK,你已经准备使用REregular expressions,正则表达式),但是你并准备使用vi。所以,在这里我们给出一些在其他工具中使用RE的例子。另外,我还会总结一下你在不同程序之间使用RE可能发现的区别。

  当然,你也可以在Visual C++编辑器中使用RE。选择Edit->Replace,然后选择"Regular expression"选择框,Find What输入框对应上面介绍的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace输入框对应pat2部分。但是,为了得到vi的执行范围和g选项,你要使用Replace All或者适当的手工Find Next and Replace(译者按:知道为啥有人骂微软弱智了吧,虽然VC中可以选中一个范围的文本,然后在其中执行替换,但是总之不够vi那么灵活和典雅)。

sed

  SedStream EDitor的缩写,是Unix下常用的基于文件和管道的编辑工具,可以在手册中得到关于sed的详细信息。

  这里是一些有趣的sed脚本,假定我们正在处理一个叫做price.txt的文件。注意这些编辑并不会改变源文件,sed只是处理源文件的每一行并把结果显示在标准输出中(当然很容易使用重定向来定制):

  

sed脚本

描述

sed 's/^$/d' price.txt

删除所有空行

sed 's/^[ \t]*$/d' price.txt

删除所有只包含空格或者制表符的行

sed 's/"//g' price.txt

删除所有引号

awk

  awk是一种编程语言,可以用来对文本数据进行复杂的分析和处理。可以在手册中得到关于awk的详细信息。这个古怪的名字是它作者们的姓的缩写(AhoWeinbergerKernighan)。

  在AhoWeinbergerKernighan的书The AWK Programming Language中有很多很好的awk的例子,请不要让下面这些微不足道的脚本例子限制你对awk强大能力的理解。我们同样假定我们针对price.txt文件进行处理,跟sed一样,awk也只是把结果显示在终端上。

  

awk脚本

描述

awk ' !~ /^$/' price.txt

删除所有空行

awk 'NF > 0' price.txt

awk中一个更好的删除所有行的办法

awk ' ~ /^[JT]/ ' price.txt

打印所有第二个字段是'J'或者'T'打头的行中的第三个字段

awk ' !~ /[Mm]isc/ {print + }' price.txt

针对所有第二个字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定为数字)

awk ' !~ /^[0-9]+\.[0-9]*$/ ' price.txt

打印所有第三个字段不是数字的行,这里数字是指d.d或者d这样的形式,其中d09的任何数字

awk ' ~ /John|Fred/ ' price.txt

如果第二个字段包含'John'或者'Fred'则打印整行

grep

  grep是一个用来在一个或者多个文件或者输入流中使用RE进行查找的程序。它的name编程语言可以用来针对文件和管道进行处理。可以在手册中得到关于grep的完整信息。这个同样古怪的名字来源于vi的一个命令,g/re/p,意思是global regular expression print

  下面的例子中我们假定在文件phone.txt中包含以下的文本,——其格式是姓加一个逗号,然后是名,然后是一个制表符,然后是电话号码:

  Francis, John 5-3871

  Wong, Fred 4-4123

  Jones, Thomas 1-4122

  Salazar, Richard 5-2522

  

grep命令

描述

grep '\t5-...1' phone.txt

把所有电话号码以5开头以1结束的行打印出来,注意制表符是用\t表示的

grep '^S[^ ]* R' phone.txt

打印所有姓以S打头和名以R打头的行

grep '^[JW]' phone.txt

打印所有姓开头是J或者W的行

grep ', ....\t' phone.txt

打印所有姓是4个字符的行,注意制表符是用\t表示的

grep -v '^[JW]' phone.txt

打印所有不以J或者W开头的行

grep '^[M-Z]' phone.txt

打印所有姓的开头是MZ之间任一字符的行

grep '^[M-Z].*[12]' phone.txt

打印所有姓的开头是MZ之间任一字符,并且点号号码结尾是1或者2的行

egrep

  egrepgrep的一个扩展版本,它在它的正则表达式中支持更多的元字符。下面的例子中我们假定在文件phone.txt中包含以下的文本,——其格式是姓加一个逗号,然后是名,然后是一个制表符,然后是电话号码:

  Francis, John 5-3871

  Wong, Fred 4-4123

  Jones, Thomas 1-4122

  Salazar, Richard 5-2522

  

egrep命令

描述

egrep '(John|Fred)' phone.txt

打印所有包含名字John或者Fred的行

egrep 'John|22$|^W' phone.txt

打印所有包含John 或者以22结束或者以W的行

egrep 'net(work)?s' report.txt

report.txt中找到所有包含networks或者nets的行

正则表达式语法支持情况

  

命令或环境

.

[ ]

^

$

\( \)

\{ \}

?

+

|

( )

vi

X

X

X

X

X

 

 

 

 

 

Visual C++

X

X

X

X

X

 

 

 

 

 

awk

X

X

X

X

 

 

X

X

X

X

sed

X

X

X

X

X

X

 

 

 

 

Tcl

X

X

X

X

X

 

X

X

X

X

ex

X

X

X

X

X

X

 

 

 

 

grep

X

X

X

X

X

X

 

 

 

 

egrep

X

X

X

X

X

 

X

X

X

X

fgrep

X

X

X

X

X

 

 

 

 

 

perl

X

X

X

X

X

 

X

X

X

X

vi替换命令简介

  Vi的替换命令:

  :ranges/pat1/pat2/g

  其中

  : 这是Vi的命令执行界面。

  range 是命令执行范围的指定,可以使用百分号(%)表示所有行,使用点(.)表示当前行,使用美元符号($)表示最后一行。你还可以使用行号,例如10,20表示第1020行,.,$表示当前行到最后一行,.+2,$-5表示当前行后两行直到全文的倒数第五行,等等。

  s 表示其后是一个替换命令。

  pat1 这是要查找的一个正则表达式,这篇文章中有一大堆例子。

  pat2 这是希望把匹配串变成的模式的正则表达式,这篇文章中有一大堆例子。

  g 可选标志,带这个标志表示替换将针对行中每个匹配的串进行,否则则只替换行中第一个匹配串。

[编辑本段]

五、常用的正则表达式

  常用的正则表达式主要有以下几种:

  匹配中文字符的正则表达式: [\u4e00-\u9fa5]

  评注:匹配中文还真是个头疼的事,有了这个表达式就好办了哦

  获取日期正则表达式:\d{4}[|\-|\.]\d{1,2}[|\-|\.]\d{1,2}?

  评注:可用来匹配大多数年月日信息。

  匹配双字节字符(包括汉字在内)[^\x00-\xff]

  评注:可以用来计算字符串的长度(一个双字节字符长度计2ASCII字符计1

  匹配空白行的正则表达式:\n\s*\r

  评注:可以用来删除空白行

  匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?</>|<.*? />

  评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

  匹配首尾空白字符的正则表达式:^\s*|\s*$

  评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

  匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

  评注:表单验证时很实用

  匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*

  评注:网上流传的版本功能很有限,上面这个基本可以满足需求

  匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线)^[a-zA-Z][a-zA-Z0-9_]{4,15}$

  评注:表单验证时很实用

  匹配国内电话号码:\d{4}-\d{7}|\d{3}-\d{8}

  评注:匹配形式如 0511-4405222 021-87888822

  匹配腾讯QQ号:[1-9][0-9]\{4,\}

  评注:腾讯QQ号从10000开始

  匹配中国邮政编码:[1-9]\d(?!\d)

  评注:中国邮政编码为6位数字

  匹配身份证:\d{17}[\d|X]|\d{15}

  评注:中国的身份证为15位或18

  匹配ip地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

  评注:提取ip地址时有用

  匹配特定数字:

  ^[1-9]\d*$ //匹配正整数

  ^-[1-9]\d*$ //匹配负整数

  ^-?[1-9]\d*$ //匹配整数

  ^[1-9]\d*|0$ //匹配非负整数(正整数 + 0

  ^-[1-9]\d*|0$ //匹配非正整数(负整数 + 0

  ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮点数

  ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配负浮点数

  ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮点数

  ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非负浮点数(正浮点数 + 0

  ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮点数(负浮点数 + 0

  评注:处理大量数据时有用,具体应用时注意修正

  匹配特定字符串:

  ^[A-Za-z]+$ //匹配由26个英文字母组成的字符串

  ^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串

  ^[a-z]+$ //匹配由26个英文字母的小写组成的字符串

  ^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串

  ^\w+$ //匹配由数字、26个英文字母或者下划线组成的字符串

  评注:最基本也是最常用的一些表达式

  Function IsRegu(Regu,s)

  '正则表达式校验

  If Regu="" Then

  Exit Function

  End if

  Dim Re,Sre

  Set Re = New RegExp

  Re.Pattern = Regu

  Sre = Re.Test(s)

  If Sre = True Then

  IsRegu = True

  Else

  IsRegu = False

  End If

  End Function

  tmp="hao123@163.com"

  if (IsRegu("\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*",tmp )) =false then

  msgbox "E-mail地址不合法 "

  FieldCheck#N=false

  end if

  不同的语言(如PHPJAVA)、相同语言的不同类库(如来自SunJava Regular Expression类库跟Apache Jakarta的正则表达式类库)间,用法会有所差别,在使用的时候,要注意这些差别。

[编辑本段]

六、Editplus等软件中正则替换技巧

  正则表达式类

  【1 正则表达式应用——替换指定内容到行尾

  【2 正则表达式应用——数字替换----------------------------Microshaoft@CCF,jiuk2k@CCF

  【3 正则表达式应用——删除每一行行尾的指定字符

  【4 正则表达式应用——替换带有半角括号的多行

  【5 正则表达式应用——删除空行----------------------------江德华

  软件技巧类

  ------------------------------------------------------

  【6 软件技巧——键盘记录的注意事项

  【7 软件技巧——关闭文档标签的便捷方法

  【8 软件技巧——如何去掉 EditPlus 保存文本文件时的添加后缀提示?

  【9 软件技巧——提示找不到语法文件的解决办法

  【10】软件技巧——设置editplus支持其它文字,如韩文----------jackywu1978@LJF

  【11】软件技巧——FTP 上传的设置----------------------------李应文2.11汉化版

  【12】软件技巧——如何禁用备份文件功能?

  【13】软件技巧——添加语法文件、自动完成文件、以及剪辑库文件

  工具集成类

  ------------------------------------------------------

  【14】工具集成——编译器集成例子(JavaBorland C++Visual C++Inno SetupnsisC#

  【15】工具集成——Editplus调试PHP程序----------------------avenger,aukw@CCF

  【16】工具集成——打造 PHP 调试环境()----------------------老七2.11汉化版

  【17】在 WINPE 中集成 EDITPLUS

  后续添加

  ------------------------------------------------------

  【18】支持带UTF-8标记/不带UTF-8标记的文件

  每个步骤都说得很详细了,就没有必要贴图了,体积不要太大才好。

  【1】正则表达式应用——替换指定内容到行尾

  原始文本如下面两行

  abc aaaaa

  123 abc 444

  希望每次遇到“abc”,则替换“abc”以及其后到行尾的内容为“abc efg”

  即上面的文本最终替换为:

  abc efg

  123 abc efg

  解决:

   在替换对话框,查找内容里输入“abc.*”

   同时勾选正则表达式复选框,然后点击全部替换按钮

  其中,符号的含义如下:

  “.” =匹配任意字符

  “*” =匹配0次或更多

  注意:其实就是正则表达式替换,这里只是把一些曾经提出的问题加以整理,单纯从正则表达式本身来说,就可以引申出成千上万种特例。

  【2】正则表达式应用——数字替换 Microshaoft@CCF,jiuk2k@CCF

  希望把

  asdadas123asdasdas456asdasdasd789asdasd

  替换为:

  asdadas[123]asdasdas[456]asdasdasd[789]asdasd

  在替换对话框里面,勾选正则表达式复选框;

  在查找内容里面输入“[0-9][0-9][0-9]”,不含引号

  替换为:”里面输入“[\0\1\2]”,不含引号

  范围为你所操作的范围,然后选择替换即可。

  实际上这也是正则表达式的使用特例,“[0-9]”表示匹配09之间的任何特例,同样“[a-z]”就表示匹配az之间的任何特例

  上面重复使用了“[0-9]”,表示连续出现的三个数字

  “\0”代表第一个“[0-9]”对应的原型,“\1”代表第二个“[0-9]”对应的原型,依此类推

  “[”“]”为单纯的字符,表示添加“[”“]”,如果输入其它\0\1\2其它,则替换结果为:

  asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd

  功能增强(by jiuk2k@CCF):

  如果将查找内容“[0-9][0-9][0-9]”改为“[0-9]*[0-9]”,对应1 123 12345 ...

  大家根据需要定制

  相关内容还有很多,可以自己参考正则表达式的语法仔细研究一下

  【3】正则表达式应用——删除每一行行尾的指定字符

  因为这几个字符在行中也是出现的,所以肯定不能用简单的替换实现

  比如

  12345 1265345

  2345

  需要删除每行末尾的“345”

  这个也算正则表达式的用法,其实仔细看正则表达式应该比较简单,不过既然有这个问题提出,说明对正则表达式还得有个认识过程,解决方法如下

  解决:

  在替换对话框中,启用正则表达式复选框

  在查找内容里面输入“345$”

  这里“$”表示从行尾匹配

  如果从行首匹配,可以用“^”来实现,不过 EditPlus 有另一个功能可以很简单的删除行首的字符串

  a. 选择要操作的行

  b. 编辑-格式-删除行注释

  c. 在弹出对话框里面输入要清除的行首字符,确定

  【4】正则表达式应用——替换带有半角括号的多行

  几百个网页中都有下面一段代码:

  <script LANGUAGE="JavaScript1.1">

  <!--

  htmlAdWH('93163607', '728', '90');

  //-->

  </SCRIPT>

  我想把它们都去掉,可是找了很多search & replace的软件,都是只能对一行进行操作。

  EditPlus 打开几百个网页文件还是比较顺畅的,所以完全可以胜任这个工作。

  具体解决方法,在 Editplus 中使用正则表达式,由于“(”“)”被用做预设表达式(或者可以称作子表达式)的标志,所以查找

  “<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH('93163607', '728', '90'.);\n//-->\n</SCRIPT>\n”

  时会提示查找不到,所以也就无法进行替换了,这时可以把“(”“)”使用任意字符标记替代,即半角句号:“.”。替换内容为

  <script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH.'93163607', '728', '90'.;\n//-->\n</SCRIPT>\n

  在替换对话框启用正则表达式选项,这时就可以完成替换了

  补充:(lucida@DRL

  对( ) 这样的特殊符号,应该用\( \)来表示,这也是很标准的regexp语法,可以写为

  <script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH\('93163607', '728', '90'\);\n//-->\n</SCRIPT>\n

  【5】正则表达式应用——删除空行

  启动EditPlus,打开待处理的文本类型文件。

  、选择查找菜单的替换命令,弹出文本替换对话框。选中正则表达式复选框,表明我们要在查找、替换中使用正则表达式。然后,选中替换范围中的当前文件,表明对当前文件操作。

  、单击查找内容组合框右侧的按钮,出现下拉菜单。

  、下面的操作添加正则表达式,该表达式代表待查找的空行。(技巧提示:空行仅包括空格符、制表符、回车符,且必须以这三个符号之一作为一行的开头,并且以回车符结尾,查找空行的关键是构造代表空行的正则表达式)。

  直接在"查找"中输入正则表达式“^[ \t]*\n”,注意\t前有空格符。

  (1)选择从行首开始匹配查找内容组合框中出现字符“^”,表示待查找字符串必须出现在文本中一行的行首。

  (2)选择字符在范围中,那么在“^”后会增加一对括号“[]”,当前插入点在括号中。括号在正则表达式中表示,文本中的字符匹配括号中任意一个字符即符合查找条件。

  (3)按一下空格键,添加空格符。空格符是空行的一个组成成分。

  (4)选择制表符,添加代表制表符的“\t”

  (5)移动光标,将当前插入点移到“]”之后,然后选择匹配 0 次或更多,该操作会添加星号字符“*”。星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。

  (6)选择换行符,插入“\n”,表示回车符。

  替换为组合框保持空,表示删除查找到的内容。单击替换按钮逐个行删除空行,或单击全部替换按钮删除全部空行(注意:EditPlus有时存在全部替换不能一次性完全删除空行的问题,可能是程序BUG,需要多按几次按钮)。

  【6】软件技巧——键盘记录的注意事项

  EditPlus 的键盘记录有些类似于 UltraEdit 的宏操作,不过功能相对单一,录制的文件可编辑性较差。

  由于基本无法编辑录制的文件,所以录制的时候为了避免录制失败,推荐纯粹使用键盘操作,以下是比较关键的几个键盘组合:

  Ctrl+F 调出查找对话框

  Ctrl+H 调出替换对话框

  Alt+F4 关闭作用,比如,关闭查找对话框、关闭替换对话框,等等

  其它键盘快捷键在帮助-快捷键列表里面可以很容易的查找到,这里就不细说了。

  【7】软件技巧——关闭文档标签的便捷方法

  右键单击文档标签工具条,弹出菜单中选择标签选项,选中用鼠标中间的按钮关闭,这里包括鼠标的滚轮。

  【8】软件技巧——如何去掉 EditPlus 保存文本文件时的添加后缀提示?

  如果你使用 EditPlus 进行文本编辑,那么每次创建文本文件,编辑后保存时,尽管文件类型下拉列表中显示的是文本文件, EditPlus 还是询问你是否添加".txt"后缀,是不是很烦?

  解决方法:

   在程序目录建立一个空的文件“template.txt”

  工具-参数设置-模板里面,单击添加按钮添加模板,菜单文本这里输入“Text”,浏览“template.txt”,之后确定即可

  文件-新建-text”,就可以建立一个空的文本文件,保存时,这个文件自动带有扩展名".txt",也就避免了令人头疼的确认

   模板设置文件名称为“template.ini”,如果和主程序同一路径,可以使用相对路径

  罗嗦了点,不过管用

  要自动创建带有某种后缀的文件,方法同上。

  【9】软件技巧——提示找不到语法文件 *.stx 的解决办法

  原因多为设置的语法文件不存在或者是路径设置不对。这是因为 EditPlus 的语法是设置文件采用的是绝对路径,而在你设置了语法文件之后,再把程序复制到其它目录,因而导致 EditPlus 无法找到该语法文件。

  解决办法:

  在主程序目录里,找到 Setting.ini 这是 EditPlus 存放语法的文件

  查找后缀为“.stx”“acp”的文本内容,或者查找带有驱动器符号的行,比如

  Syntax file=C:\Program Files\EditPlus 2\cpp.stx

  那么,就把”C:\Program Files\EditPlus 2\“替换成你当前软件的路径。

  其它提示找不到文件的解决方法同上

  【10】软件技巧——设置editplus支持其它文字,如韩文

  在editplus里打开文件,出来打开文件对话框;然后点击转换器后面的那个省略号,会出来自定义转换器对话框;在右边选择你需要的编码方式,添加到左边,然后点确定;最后在下拉框中选择需要的编码方式,然后打开文件即可。

  【11】软件技巧——FTP 上传的设置

  文件->远程操作->FTP 上传设置选项卡中设置好参数(子目录前面应该加“/”“/web/”),点击确定回到“FTP 上传选项卡,然后点击上传即可;批量上传的设置类似。

  【12】软件技巧——如何禁用备份文件功能?

  在参数选择的文件选项页,禁用“'保存时自动创建备份文件选项

  【13】软件技巧——添加语法文件、自动完成文件、以及剪辑库文件

  要添加 *.STX(语法文件)或 *.ACP(自动完成文件):

  1. 选择参数选择语法

  2. 单击添加按钮,命名,在扩展名部分输入对应扩展名(不带“.”

  3. 浏览/输入 STX(语法文件部分) 以及 ACP(自动完成文件部分)。

  添加剪辑库文件(*.CTL

  复制相应 *.CTL 文件到软件安装目录,重新启动 EditPlus ,则系统自动识别。

  作者主页有很多语法自动完成文件下载,(地址见扩展阅读3

  【14】工具集成——编译器集成例子(JavaBorland C++Visual C++Inno Setupnsis

  在工具参数选择用户工具选项页设置,设置步骤

   设置组名称,这里也可以不设置

   单击添加工具应用程序按钮并进行如下设置

   各种类似"$(FilePath)"的参数可以在文本框右侧的箭头下拉菜单中获取,具体含义如下

  参数 描述

  $(FilePath) 文件路径(文件全名,含目录和文件名)

  $(FileDir) 文件目录(不带文件名)

  $(FileName) 文件名(不带目录)

  $(FileNameNoExt) 不带扩展名的文件名(不带目录)

  $(FileExt) 扩展名(当前文件)

  $(ProjectName) 工程名称(当前工程名)

  $(CurLine) 当前行号(光标位置处的行号)

  $(CurCol) 当前列号(光标位置处的列号)

  $(CurSel) 当前文本(插入当前选定文本)

  $(CurWord) 当前单词(插入当前单词)

  $(WindowList) 显示当前窗口列表并选择特定文件

  例子 1. Java 编译器

  菜单文本:Java 编译器

  命令:c:\java\bin\javac.exe

  参数:"$(FilePath)"

  初始目录:$(FileDir)

  捕获输出:开启

  要运行已编译的 Java 类文件,你可以进行如下设置:

  菜单文本:Java

  命令:c:\java\bin\java.exe

  参数:$(FileNameNoExt)

  初始目录:$(FileDir)

  命令部分应当替换为实际的 Java 解释器的路径。

  例子 2. Borland C++

  菜单文本:Borland C

  命令:c:\bc\bin\bcc32.exe

  参数:-Ic:\bc\include -Lc:\bc\lib -n$(FileDir) $(FilePath)

  初始目录:c:\bc\bin

  捕获输出:开启

  例子 3. Visual C++

  菜单文本:Visual C++

  命令:c:\msdev\vc98\bin\cl.exe

  参数:"$(FilePath)"

  初始目录:$(FileDir)

  捕获输出:开启

  例子 4. Inno Setup

  菜单文本:编译 Inno

  命令:C:\Program Files\Inno Setup 4\Compil32.exe”

  参数:/cc $(FileName)

  初始目录:$(FileDir)

  捕获输出:开启

  例子 5. nsis

  菜单文本:编译 nsis

  命令:C:\NSIS\makensis.exe

  参数:$(FileName)

  初始目录:$(FileDir)

  捕获输出:开启

  例子 6. C#

  菜单文本:编译 C#

  命令:C:\WINDOWS\Microsoft.NET\Framework\v1.0.3705\csc.exe

  参数:$(FileName)

  初始目录:$(FileDir)

  捕获输出:开启

  在上面设置中,在命令部分,必须使用系统中各自编译器的绝对路径。

  设置完毕后,你可以在工具菜单运行对应工具了,运行结果会显示在底部的输出窗口,你也可以通过快捷键(Ctrl + 0-9) 运行,或者是通过用户工具栏的快捷按钮运行。

  要运行已编译的 *.exe 文件,你可以进行如下设置(此时可执行文件需要和编译文件同名):

  菜单文本:Run

  命令:$(FileNameNoExt)

  参数:

  初始目录:$(FileDir)

  【15】工具集成—— Editplus调试PHP程序

  1:打开Editplus,选择"工具->配置用户工具..."菜单。

  2:在弹出的窗口中选择"添加工具->应用程序",给新程序起一个好记的名字,比如这里我们用"Debug PHP","菜单文本"中输入"Debug PHP"。点击"命令行"右边的按钮,找到你的php.exe所在的路径,例如这里是"c:\php\php.exe"。再点击"参数"右边的下拉按钮选择"文件路径",最后再把"捕获输出"前面的复选框选上。

  3:现在测试一下,新建一个php文件,按快捷键Ctrl+1可以激活刚才我们设置的工具(如果你设置了多个工具,快捷键可能会有所不同),现在你可以看到它已经能正常工作了。但是还有一点不太理想:如果你的PHP程序出错,在输出窗口会提示你第几行出错 ,单击这一行提示,Editplus老是提示你找不到某某文件,是否新建。接下下我们要修正这个功能。

  4:打开刚才用户工具设置窗口,找到刚才设置的"Debug PHP"工具。点击"捕获输出"复选框旁边的"输出模式"按钮,会弹出一个定义输出模式的窗体,把"使用默认输出模式"前面的复选框去掉, "正则表达式"这一项的文本框中输入" ^.+ in (.+) line ([0-9]+) "(不包括引号),细心的朋友可能会发现,这里使用的也正则表达式的语法。然后,在下面的"文件名"下拉菜单中选择"预设表达式 1",即上边正则表达式中的第一个参数,""下拉菜单项选择"预设表达式 2"""下拉项保持为空。然后保存设置。

  5:好了,现在再来试一下吧,双击出错的行数,Editplus就会自动激活出错文件,并把光标定位到出错行,是不是特别方便呢?!

  现在,Editplus经过我们的"改造",已经可以即时的调试PHP文件了,虽然还不是"可视化"界面的,但对于一些平常的小程序来查错还是非常好用的。Editplus真是不款不可多得的好工具,如果你有什么使用技巧,不要忘了大家一起分享哦。^O^

  如果不能切换错误行号,请尝试作如下修改: by aukw@CCF

  1.php.ini html_errors = Off打开

  //如果你不打开,3.中的表达式要修改

  2.参数改成:-q -f "$(FilePath)"

  //不加"符号的话文件名有空格的文件调试失败。

  //-q不输出html头信息,你去掉也行,不过调试时候你一般用不到那些header信息

  3." ^.+ in (.+) line ([0-9]+) " 改成 "^.+ in (.+) on line ([0-9]+)$"

  //如果还是不行,请注意调试结果,自己修改表达式来取出文件名和行号

  【16】工具集成——打造 PHP 调试环境()

  1: 把剪辑库定位在 PHP4 Functions 上就可以在编辑时, 利用[插入]->[匹配剪辑]命令,就可以自动完成末输入完整的 PHP 函数(或直接按 F2 )

  2: 类似上面,在选择部分文字后,同样可以自动完成。( F2)

  3: [参数选择]->[设置和语法]->PHP->自动完成, 选择目录下的 php.acp 文件,你可以定制自己的自动完成方式.

  4: 想要即时预览文件,可在[参数选择]->[工具]->WEB 服务器中添加本地目录,(注意不要加 http:// , 应是一个有效的站点)

  如: 主机->localhost/php | 根目录->D:\php

  主机->localhost/asp | 根目录->D:\asp

  主机->localhost/cgi | 根目录->D:\cgi

  完成设置后只要脚本文件位于这些目录下(子目录也没问题), 就能够正确解释.

  5: 各种语法和模板文件可以在官方网站获得(地址见扩展阅读3),可根据需要选用和编辑。

  6: Ctrl+F11 可显示当前文件中的函数列表.

  7: 添加各种用户工具.:

  启动MYSQL服务器管理工具->C:\mysql\bin\winmysqladmin.exe

  启动Apache服务器->C:\Apache\bin\Apache.exe -k start

  启动Apache服务器->C:\Apache\bin\Apache.exe -k stop (shutdown)

  8: DBG 附带有一个 prof_results.php 文件,可剖析 PHP 程序的性能.

  虽不是真正的调试器,但已经够了.

  OK! 经过改造后,是不是有点象一个 IDE 什么?还差点,没有即时帮助...看我的,再来:

  9: php_manual_en.chm (最好是扩展帮助手册)加入到用户工具中, 当遇到需要参考的关键字时, 把光标定位其上, 按下快捷键 Ctrl+1, 看到了吗.

  在输入时有想不起来的函数名时, 先按照第 1 条的方法调出函数, 然后...怎么样?

  以上有的是对于调试工具的设置,由于此类工具比较多,大家设置时参考以上的基本就差不多了,所以就不过多的列举了。

  【17】在 WINPE 中集成 EDITPLUS

  可以基于目前的bartpe做得WINPE中,菜单使用nu2menu制作

  默认位置为 \programs\editplus\

  默认系统位置为光盘的 i386 目录

  i386/system32 autorun.bat 中添加外壳集成(系统右键)

  regedit /s %SystemDrive%\programs\editplus\REG.REG

  regsvr32 /s \programs\editplus\EPPSHELL.DLL

  (reg.reg保存了epp的工具栏信息,当然注册用户也可以放置注册信息)

  复制editplus安装包里面的文件到programs\editplus\,注意,如果有setting.ini,删掉该文件,在nu2menu里面加入以下句子(可以根据需要安排位于特定菜单条目下)

  <MITEM TYPE="ITEM" DISABLED="@Not(@FileExists(@GetProgramDrive()\Programs\EditPlus\editplus.exe))" CMD="RUN"

  FUNC="@GetProgramDrive()\Programs\EditPlus\editplus.exe">EditPlus 文本编辑</MITEM>

  【18】支持带UTF-8标记/不带UTF-8标记的文件 Lei@DRL提出并测试

  这里Byte Order Mark翻译为标记/文件头/标签

  参数选择-文件-里面设置支持不带有UTF-8文件头的UTF8文件,我这里翻译标签为UTF-8文件头,如果复选该项,应该是保存为不带标签的Utf-8,如果不复选,应该是保存成带有BOMUTF-8

  这样就可以打开带签名的UTF-8文件,并且可以正常编辑,但是又不能打开不带签名的了,想要打开不带签名的还需要改回来...不过虽然有点麻烦,但是总算能用了

  1.验证用户名和密码:("^[a-zA-Z]\w{5,15}$")正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位;

  2.验证电话号码:("^(\d{3.4}-)\d{7,8}$")正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx

  3.验证身份证号(15位或18位数字):("^\d{15}|\d{18}$");

  4.验证Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$")

  5.只能输入由数字和26个英文字母组成的字符串:("^[A-Za-z0-9]+$") ;

  6.整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$

  7.只能输入数字:"^[0-9]*$"

  8.只能输入n位的数字:"^\d{n}$"

  9.只能输入至少n位的数字:"^\d{n,}$"

  10.只能输入m~n位的数字:。"^\d{m,n}$"

  11.只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"

  12.只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"

  13.只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"

  14.只能输入非零的正整数:"^\+?[1-9][0-9]*$"

  15.只能输入非零的负整数:"^\-[1-9][]0-9"*$

  16.只能输入长度为3的字符:"^.{3}$"

  17.只能输入由26个英文字母组成的字符串:"^[A-Za-z]+$"

  18.只能输入由26个大写英文字母组成的字符串:"^[A-Z]+$"

  19.只能输入由26个小写英文字母组成的字符串:"^[a-z]+$"

  20.验证是否含有^%&',;=?$\"等字符:"[^%&',;=?$\x22]+"

  21.只能输入汉字:"^[\u4e00-\u9fa5]{0,}$"

  22.验证URL"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"

  23.验证一年的12个月:"^(0?[1-9]|1[0-2])$"正确格式为:"01""09""1""12"

  24.验证一个月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为;"01""09""1""31"

  .(小圆点)

  匹配除换行符号外的任意字符

  \w

  匹配字母、数字、下划线和汉字

  \s

  匹配任意空白字符

  \d

  匹配数字

  \b

  匹配单词的开始或结束

  ^

  匹配字符串的开始,或排除

  $

  匹配字符串的结束

  以上都是单个字符匹配

  如果要求匹配元字符中的符号,则需要加反斜杠。例如\+表示匹配加号

  www.baidu.comwww\.baidu\.com

  *

  重复零次或多次

  +

  重复一次或多次

  ?

  重复零次或一次

  {n}

  重复n

  {n,}

  至少重复n

  {n,m}

  重复nm

  \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}

  ^w{3}\..+\.\w+$

  []

  表示匹配中括号中的任一字符

  ()

  小括号内的为一个整体

  |

  前后两者任意匹配一种

  \(?0\d{2}[)-]?\d{8}

  (\(0\d{2}\)\d{8})|(0\d{2}-\d{8})|0\d{2}\d{8}

  \W:与\w相反

  \S:与\s相反

  \D:与\d相反

  \B:与\b相反

  [^something]:与[something]相反

  0\d{2}-\d{8}

  \b\w{6}\b

  ^\w+

  <a[^>]+>

  Windows98|Windows2000|WindosXP

  ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

  ^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

  ^\+?[1-9][0-9]*$^\-[1-9][]0-9“*$

  ^[A-Za-z]+$^[A-Z]+$^[a-z]+$

  ^[a-zA-Z]\w{5,15}$

[编辑本段]

正则表达式产生的启示

  讲到这里,相信大家基本上能整体了解正则表达式背后的离奇身世了。但是我想了解完了是一方面,重要的是在了解正则表达式的历史以后,你对这段历史的思考和总结。从正则表达式的诞生到目前的广泛应用,带给我们那些启示呢?

  (1 心中时刻保持新颖想法,尝试用各种新办法来解决遇到的问题。对于遇到的问题,在用常规的解决思路无法解决或不能很好解决的时间,可以大胆探索尝试采用新的方法或思路来解决问题,说大点就是创新!没有新思路估计今天的正则表达式还要等几百年才能露现人间。

  (2 善于学习和借鉴前人的经验和成果,UNIX鼻祖Ken Thompson是什么样子的人?是被计算机界尊称为“UNIX之父的大师级别的人物,大师都在不断思考从其它学科、其它知识领域的工作成果,来改进自己的工作或程序,事实也证明这样做取得巨大结果和后来的深远影响是事先谁也无法预估到的,我们在做一些事情或研究的时间,是否也考虑学习大师的优秀习惯?

  (3 学好数学、英语并保持对数学、英语的兴趣,数学也是人类几千年积累的智慧结晶,学习数学知识可以培养和训练人的思维能力。看这篇文章的朋友,我想很多都是计算机相关专业的朋友,至于数学和英语对于计算机学习和发展的重要性的道理,这里就不在多说,重在实践加持之以恒!

  (4 养成独立思考的习惯。上学时候老师经常说人与动物的最大区别是人能思考。拉美洲有句关于思考的谚语是,不会思考的人是白痴,不肯思考的人是懒汉,不敢思考的人是奴隶。我想大家和我一样,既不愿做懒汉、奴隶,更不愿做白痴。所以相信正则分享网的朋友们一定会选择做一个会思、肯思、敢思的人。

  正则表达式匹配规则:

  一切从最基本的开始。模式,是正规表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如:

  ^once

  这个模式包含一个特殊的字符^,表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配,与"There once was a man from NewYork"不匹配。正如如^符号表示开头一样,$符号用来匹配那些以给定模式结尾的字符串。

  bucket$

  这个模式与"Who kept all of this cash in a bucket"匹配,与"buckets"不匹配。字符^$同时使用时,表示精确匹配(字符串与模式一样)。例如:

  ^bucket$

  只匹配字符串"bucket"。如果一个模式不包括^$,那么它与任何包含该模式的字符串匹配。例如:模式

  once

  与字符串

  There once was a man from NewYorkWho kept all of his cash in a bucket.

  是匹配的。

  在该模式中的字母(o-n-c-e)是字面的字符,也就是说,他们表示该字母本身,数字也是一样的。其他一些??表符等),要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是:\t。所以如果我们要检测一个字符串是否以制表符开头,可以用这个模式:

  ^\t

类似的,用\n表示新行\r表示回车。其他的特殊符号,可以用在前面加上反斜杠,如反斜杠本身用\\表示,句号.\.表示,以此类推。

 

 

 

下面来看看更多的例子:

  \ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)

  好吧,现在我们说说正则表达式里的单词是什么意思吧:就是不少于一个的连续的\w。不错,这与学习英文时要背的成千上万个同名的东西的确关系不大 :)

  \d+匹配1个或更多连续的数字。这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0),而+则匹配重复1次或更多次。

  \b\w{6}\b 匹配刚好6个字符的单词。

  元字符^(和数字6在同一个键位上的符号)和$都匹配一个位置,这和\b有点类似。^匹配你要用来查找的字符串的开头,$匹配结尾。这两个代码在验证输入的内容时非常有用,比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^\d{5,12}$

  这里的{5,12}和前面介绍过的{2}是类似的,只不过{2}匹配只能不多不少重复2次,{5,12}则是重复的次数不能少于5次,不能多于12次,否则都不匹配。

  因为使用了^$,所以输入的整个字符串都要用来和\d{5,12}来匹配,也就是说整个输入必须是512个数字,因此如果输入的QQ号能匹配这个正则表达式的话,那就符合要求了。

  和忽略大小写的选项类似,有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项,^$的意义就变成了匹配行的开始处和结束处。

egrep元字符总结

  匹配单个字符的元字符

  . 点号 匹配单个任意字符

  […] 字符组 匹配单个列出的字符

  [^…] 排除型字符组 匹配单个未列出的字符

  \char 转义字符 char是元字符,或转义序列无特殊含义时,匹配char对应的普通字符

  提供计数功能的元字符

  ? 问号 容许匹配一次,但非必须

  * 星号 可以匹配任意多次,也可能不匹配

  + 加号 至少需要匹配一次,至多可能任意多次

  {min,max} 区间量词 至少需要min,至多容许max

  匹配位置的元字符

  ^ 脱字符 匹配一行的开头位置

  $ 美元符 匹配一行的结束位置

  \< 单词分界符 匹配单词的开始位置

  \> 单词分界符 匹配单词的结束位置

  其他元字符

  | alternation 匹配任意分隔的表达式

  (…) 括号 限定多选结构的范围,标注量词作用的元素,为反向引用捕获文本

  \1,\2,… 反向引用 匹配之前的第一、第二组括号内的字表达式匹配的文本

  使用括号的3个理由:限制多选结构、分组、捕获文本

  -i的参数很有用,它能忽略大小写的匹配

  转义有3种情况:

  1. \ 加上元字符,表示匹配元字符所使用的普通字符

  2. \ 加上非元字符,组成一种由具体实现方式规定其意义的元字符序列 \<表示单词的起始边界

  3. \ 加上任意其他字符,默认情况就是匹配此字符,也就是说,反斜线被忽略了

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页