正则中必须包含某个字符且只能出现一次_学习爬虫的第49天,正则表达式被我踩在脚下...

昨天学了 bs4 后,基本上就没明白啥意思,情绪一度陷入低谷。

好在有朋友在评论区告诉我:不用太在乎 bs4 了,正则表达式学好就行了,效率不是 bs4 可以比的。

一下子点燃了我前进的道路、又让我变得元气满满。

879e7cf0512a0e53b7db0845c8e59afc.gif

巧合的是,今天老师就开始讲正则表达式了,这就是命中注定吧。

正则表达式 描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

8235aafbcf57b1384056e1a507c27c05.png

网上一搜,常用的正则表达式有60多个,关键是一个个都写的跟天书一样。

好在老师说作为初学者,不要求全会,自己能写一两个即可,关键是能看懂别人写的。

所以,就必须要能掌握正则表达式的常用操作符。

97880f03cb367844e3bfd00e756353d3.png
a950a938228ad8dd0d20b62f97e4f7f1.png

在 Python 中,主要使用 Re库解决正则表达式匹配问题的。

3ab6baffa08b1112af3127f272e4c184.png

上面的几个函数中,必须要熟练掌握的就是 match 、 findall 、sub。

此外,正则表达式可以包含一些可选标志修饰符来控制匹配的模式。

1a717d9f8fa0000420488bf565bb415e.png

概念说了半天,不上手实操一下,都是扯淡。

使用 compile() 与 findall(), search(), match()等搭配使用。可以返回一个匹配对象。

06407f4a8c7b0dba90ac15ddfad01711.png

这里返回的匹配结果是,span=(3,5),考虑到左闭右开特性,也就是说,它在第3、4位置找到了AA。

也就是说,匹配的结果是两个:一是匹配不匹配;二是在哪个位置匹配

search 方法进行比对查找,只查找出现的第一个。

也可以进行简写,前面的字符串是规则(正则表达式),后面是被校验的对象。

42949a48e15757153ac5192eb02042a2.png

sub()的使用方法可以参考下面的代码。

67fa67c4ab48a200d62046f41ae0d375.png

表示:在第三个字符串中查找,将找到的 a 用 A 替换。

这个功能还是蛮强大的,这不就是 word 里面的替换功能嘛。

建议:在正则表达式中,被比较的字符串前面加上 r ,不用担心 转义字符 的问题。

总体感觉这部分不算难,真正在未来操作过程中,碰到想不起来的,直接查找就好了。

正则表达式,就是一个熟能生巧的工具罢了。

9b5ce0291cd4c0e2b6153955e0e073f4.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值