正则表达式30分钟入门笔记

4 篇文章 0 订阅
2 篇文章 0 订阅

最近需要用到java爬取网页数据,学了下正则表达式基础,做下笔记。

1: \b是正则表达式规定的一个元字符,代表着单词的开头或结尾,也就是单词的分界处。如果要精确地查找hi这个单词的话,我们应该使用\bhi\b

2:.是另一个元字符,匹配除了换行符以外的任意字符

3:*同样是元字符,它代表的不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。因此,./连在一起就意味着任意数量的不包含换行的字符,hi后面不远处跟着一个Lucy,你应该用\bhi\b.\bLucy\b

4:\d是个新的元字符,匹配一位数字(0,或1,或2,或……)

5:-不是元字符,只匹配它本身——连字符(或者减号,或者中横线,或者随你怎么称呼它),0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串:以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字,我们也可以这样写这个表达式:0\d{2}-\d{8}

6:元字符归纳

.   匹配除换行符以外的任意字符
\w  匹配字母或数字或下划线或汉字
\s  匹配任意的空白符
\d  匹配数字
\b  匹配单词的开始或结束
^   匹配字符串的开始
$  匹配字符串的结束
*   指定前面的字符任意匹配以匹配表达式

7:字符转义:查找元字符本身,在元字符前面加 \ 即可,如:

\.      指 .
\*      指 *
\\      指 \

8: 重复

代码     说明
*          重复零次或更多次
+          重复一次或更多次
?          重复零次或一次
{n}        重复n次
{n,}       重复n次或更多次
{n,m}      重复n到m次 

例:Windows\d+ 匹配Windows后面跟1个或更多数字

9:[]: 查找未定义的元字符如:a,e,i,o,u.用方括号列出即可。
如:
* [aeiou]就匹配任何一个英文元音字母
* [.?!]匹配标点符号(.或?或!)
* [0-9]等同于\d,匹配数字
* [a-z0-9A-Z_]等同于\w(如果只考虑英文)
例:(?0\d{2}[) -]?\d{8} :这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678等。首先是一个转义字符(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(\d{2}),然后是)或-或空格中的一个,它出现1次或不出现(?),最后是8个数字(\d{8})。

注:“(”和“)”也是元字符,所以在这里需要使用转义。

知识点整理来源:

正则表达式30分钟入门链接

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值