爬虫中正则表达式

1.正则表达式
正则表达式是用来匹配与查找字符串的,从网上爬取数据自然或多或少会用到正则表达式,python的正则表达式要先引入re模块,正则表达式以r引导,例如:

其中**r“\d+”**正则表达式表示匹配连续的多个数值,search是re中的函数,从"abc123cd"字符串中搜索连续的数值,得到"123",返回一个匹配对象,结果如上.

2.字符串"\d"匹配0~9之间的一个数值

3.字符"+"重复前面一个匹配字符一次或者多次.
注意:**r"b\d+"**第一个字符要匹配"b",后面是连续的多个数字,因此"是b1233",不是"a12".

4.字符"*"重复前面一个匹配字符零次或者多次.
“" 与 "+"类似,但有区别,列如:
可见 r"ab+“匹配的是"ab”,但是r"ab “匹配的是"a”,因为表示"b"可以重复零次,但是”+“却要求"b"重复一次以上.

5.字符"?"重复前面一个匹配字符零次或者一次.
匹配结果"ab”,重复b一次.

6.字符".“代表任何一个字符,但是没有特别声明时不代表字符”\n".
结果“.”代表了字符"x".

7."|"代表把左右分成两个部分 .
结果匹配"ab"或者"ba"都可以.

8.特殊字符使用反斜杠"“引导,例如”\r"、"\n"、"\t"、"\"分别表示回车、换行、制表符号与反斜线自己本身.

9.字符"\b"表示单词结尾,单词结尾包括各种空白字符或者字符串结尾.
结果匹配"car",因为"car"后面是一个空格.

10."[]中的字符是任选择一个,如果字符ASCll码中连续的一组,那么可以使用"-"字符连接,例如[0-9]表示0-9的其中一个数字,[A-Z]表示A-Z的其中一个大写字符,[0-9A-z]表示0-9的其中一个数字或者A-z的其中一个大写字符.

11."^"出现在[]的第一个字符位置,就代表取反,例如[ ^ab0-9]表示不是a、b,也不是0-9的数字.

12."\s"匹配任何空白字符,等价"[\r\n\x20\t\f\v]"

13."\w"匹配包括下划线子内的单词字符,等价于"[a-zA-Z0-9]"

14."$"字符比配字符串的结尾位置
匹配结果是最后一个"ab",而不是第一个"ab"

15.使用括号(…)可以把(…)看出一个整体,经常与"+"、"*"、"?"的连续使用,对(…)部分进行重复.
结果匹配"abab","+“对"ab"进行了重复

16.查找匹配字符串
正则表达式re库的search函数使用正则表达式对要匹配的字符串进行匹配,如果匹配不成功返回None,如果匹配成功返回一个匹配对象,匹配对象调用start()函数得到匹配字符的开始位置,匹配对象调用end()函数得到匹配字符串的结束位置,search虽然只返回匹配第一次匹配的结果,但是我们只要连续使用search函数就可以找到字符串全部匹配的字符串.
匹配找出英文句子中所有单词
我们可以使用正则表达式r”[A-Za-z]+\b"匹配单词,它表示匹配由大小写字母组成的连续多个字符,一般是一个单词,之后"\b"表示单词结尾.

程序开始匹配到一个单词后m.start(),m.end()就是单词的起始位置,s[start:end]为截取的单词,之后程序再次匹配字符串s=s[end:],即字符串的后半段,一直到匹配完毕为止就找出每个单词.

————————————————
版权声明:本文为CSDN博主「黑夜中奔跑」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ysy_1_2/article/details/104790079

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值