推荐资源站:https://zhimalier.com/
了解语系对正则表达式的影响
为什么语系的数据会影响到正则表示法的输出结果呢?由于不同语系的编码数据并不相同,所以就会造成数据选取结果的差异了。
了解正则表示法
简单地说,正则表示法就是处理字符串的方法,它以“行”为单位来进行字符串的处理。正则表示透过一些特殊字符号的辅助,可以让使用者轻易地达到查找/删除/替换某些特定字符串的工作。
提示:正则表示法是一种表示,只要工具程序支持这种表示法,那么该工具程序就可以用来作为正则表示法的字符串处理之用。
注意:由于正则表达式使用了一些特殊字符,所以所有的正则表达式都要用引号,Linux使用单引号,Android使用双引号。
要严格的验证手机号码,必须先要清楚现在已经开放了哪些数字开头的号码段,目前国内号码段分配如下:
移动:134、135、136、137、138、139、150、151、157(TD)、158、159、187、188
联通:130、131、132、152、155、156、185、186
电信:133、153、180、189、(1349卫通)
验证手机号:
public class ClassPathResource {
public static boolean isMobileNO(String mobiles) {
Pattern p = Pattern
.compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");
Matcher m = p.matcher(mobiles);
System.out.println(m.matches() + "---");
return m.matches();
}
public static void main(String[] args) throws IOException {
System.out.println(ClassPathResource.isMobileNO("18977778989"));
}
}
public class ClassPathResource {
public static boolean isMobileNO(String mobiles) {
Pattern p = Pattern
.compile("^((13[0-9])|(15[^4,//D])|(18[0,5-9]))//d{8}$");
Matcher m = p.matcher(mobiles);
System.out.println(m.matches() + "---");
return m.matches();
}
public static void main(String[] args) throws IOException {
System.out.println(ClassPathResource.isMobileNO("18977778989"));
}
}
验证邮箱:
public static boolean isEmail(String strEmail) {
String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
*[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";
Pattern p = Pattern.compile(strPattern);
Matcher m = p.matcher(strEmail);
return m.matches();
}
public static boolean isEmail(String strEmail) {
String strPattern = "^[a-zA-Z][\\w\\.-]*[a-zA-Z0-9]@[a-zA-Z0-9][\\w\\.-]
*[a-zA-Z0-9]\\.[a-zA-Z][a-zA-Z\\.]*[a-zA-Z]$";
Pattern p = Pattern.compile(strPattern);
Matcher m = p.matcher(strEmail);
return m.matches();
}
检查EditText中输入的是否符合规则:
public class Main extends Activity {
private EditText editText;
private Button button;
@Override
public void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.main);
editText = (EditText) findViewById(R.id.textId);
editText.setText("EditText element");
button = (Button) findViewById(R.id.btnId);
button.setText("Check");
button.setOnClickListener(new View.OnClickListener() {
@Override
public void onClick(View v) {
if (checkString(editText.getText().toString())) {
editText.setText("Corect");
}
}
});
}
private boolean checkString(String s) {
return s.matches("\\w*[.](Java|cpp|class)");
}
}
常用正则表达式收集
正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了
匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行
匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
匹配首尾空白字符的正则表达式:^\s*|\s*
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用
匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}
评注:表单验证时很实用
匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字
匹配身份证:\d{15}|\d{18}
评注:中国的身份证为15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用
匹配特定数字:
^[1-9]\d* //匹配正整数
^-[1-9]\d* //匹配负整数
^-?[1-9]\d* //匹配整数
^[1-9]\d*|0 //匹配非负整数(正整数 + 0)
^-[1-9]\d*|0 //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d* //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*) //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0) //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0 //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0 //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正
匹配特定字符串:
^[A-Za-z]+ //匹配由26个英文字母组成的字符串
^[A-Z]+ //匹配由26个英文字母的大写组成的字符串
^[a-z]+ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+ //匹配由数字和26个英文字母组成的字符串
^\w+ //匹配由数字、26个英文字母或者下划线组成的字符串
Java 正则表达式(跟android没多大区别)
1.1 句点符号
假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符:
1.2 方括号符号
如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组,具体请参见后面介绍。
为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因为在方括号之内你只能匹配单个字符:
1.3 “或”符号
1.4 表示匹配次数的符号
表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数:
假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:
下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。
1.5 “否”符号
“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。
1.6 圆括号和空白符号
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:
新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组,然后用ORO API(本文后面详细讨论)提取出它的值。
1.7 其它符号
为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。如表二所示:
例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示:
Linux正则表达式
在使用grep、awk和sed命令时,需要使用正则表达式。
比如我通过grep找代码编译结果中是否有错误。或者是否有我代码的错误。
这里说下正则表达式基本的应用:
• 匹配行首与行尾。
• 匹配数据集。
• 只匹配字母和数字。
• 匹配一定范围内的字符串集。
^ | 只匹配行首 |
$ | 只匹配行尾 |
* | 一个单字符后紧跟*,匹配0个或多个此单字符 |
[] | 匹配[]内字符,可以是一个单字符,也可以是字符序列。可以使用 - 表示[]内字符序列范围,如用[1-5]代替[12345] |
\ | 用来屏蔽一个元字符的特殊含义。因为有时在shell中一些元字符有特殊含义。\可以使其失去应有含义。 |
. | 匹配任意单字符 |
pattern\{n\} | 用来匹配前面pattern出现次数。n为次数 |
pattern\{n,\} | 含义同上,但次数最少为n |
patter\{n,m\} | 含义同上,但pattern出现次数在n与m之间 |
-
使用句点匹配单字符
句点“.”可以匹配任意单字符。例如,如果要匹配一个字符串,以be g开头,中间夹一个
任意字符,那么可以表示为be g . n,“.”可以匹配字符串头,也可以是中间任意字符。
在ls-l命令中,可以匹配一定权限:
.. . x . . x . . x
此格式匹配用户本身,用户组及其他组成员的执行权限。
~$ ls -l |grep ...x..x..x
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp
~$ - 在行首以^匹配字符串或字符序列
^只允许在一行的开始匹配字符或单词。例如,使用ls-l命令,并匹配目录。之所以可以
这样做是因为ls-l命令结果每行第一个字符是d,即代表一个目录。
~$ ls -l |grep ^d
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 bin
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:06 emacs
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 etc
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 info
drwxrwxrwx 1 h00209633 Domain U 0 一月 19 08:38 leim
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 09:05 lisp
drwxrwxrwx 1 h00209633 Domain U 0 二月 7 08:07 site-lisp - 在行尾以$匹配字符串或字符
可以说$与^正相反,它在行尾匹配字符串或字符,$符号放在匹配单词后。假定要匹配以
单词lisp结尾的所有行,操作为:
~$ ls |grep sp$
lisp
site-lisp
~$ - 使用*匹配字符串中的单字符或其重复序列
使用此特殊字符匹配任意字符或字符串的重复多次表达式。例如:
找e*m(以e开头m结束的字符串)
~$ ls | grep e*m
emacs
leim
~$ - 使用\屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么
是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:
$ . ' " * [ ] ^ | { } \ + ?
例如:找以.el后缀的文件
~/lisp$ ls | grep \.el$
abbrev.el
abbrevlist.el
add-log.el
align.el
allout.el
ansi-color.el
apropos.el
arc-mode.el
array.el
autoarg.el
autoinsert.el
autorevert.el
avoid.el
battery.el
bindings.el
bookmark.el
bs.el
buff-menu.el
button.el
calculator.el
case-table.el - 使用[]匹配一个范围或集合
使用[]匹配特定字符串或字符串集,可以用逗号将括弧内要匹配的不同字符串分开,但并
不强制要求这样做(一些系统提倡在复杂的表达式中使用逗号),这样做可以增加模式的可读
性。
使用“-”表示一个字符串范围,表明字符串范围从“-”左边字符开始,到“-”右边字
符结束。
如果熟知一个字符串匹配操作,应经常使用[]模式。
假定要匹配任意一个数字,可以使用:
[0123456789]
然而,通过使用“-”符号可以简化操作:
[0-9]
或任意小写字母
[a-z]
要匹配任意字母,则使用:
[A-Za-z]
表明从A-Z、a-z的字母范围。
如要匹配任意字母或数字,模式如下:
[A-Za-z0-9]
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[^0-9]
匹配任一非数字型字符。
通过最后一个例子,应可猜知除了使用^,还有一些方法用来搜索任意一个特殊字符。 - 使用\{\}匹配模式结果出现的次数
使用*可匹配所有匹配结果任意次,但如果只要指定次数,就应使用\{ \ },此模式有三种
形式,即:
pattern\{n\}匹配模式出现n次。
pattern\{n,\}匹配模式出现最少n次。
pattern\{n,m}匹配模式出现n到m次之间,n , m为0 - 2 5 5中任意整数。
例如格式如下:前4个字符是数字,接下来是xx,最后4个也是数字,
操作如下:
[0-9]\{4\}XX[0-9]\{4\}
具体含义如下:
1)匹配数字出现4次。
2)后跟代码xx。
3)最后是数字出现4次。
文章部分内容整理自网络!