python爬虫之四_HTML解析之正则表达式

作用:用于匹配一个字符串中的子串

正则表达式本身作用只是匹配,至于将匹配的内容提取出来,其实是依赖于各编程语言中实现正则表达式功能的对应库和类,如python中的re包

正则表达式其实挺简单,关键在于网上各类教程对一些语法的表述容易让人误解,导致结果与预想不同,另外就是一些匹配功能不会写

一 常见误解

1.1 “.” 点号能匹配所有字符

1.误解一:"." 点号能匹配所有字符,用".*“能匹配所有字符串
实际上:”." 点号只能匹配除了换行符之外的所有字符,当目标子串中含有换行符时,".*"这种不能匹配上整个子串,只能匹配到换行符前为止
应改为:[.\n]*、[\s\S]*、[\d\D]*

1.2 "[…]“方括号内能表示"或”

2.误解二:"[…]“方括号内能表示"或”,多个字符串是"或"的关系时,可以直接写在"[…]“内,如”[(字符串A)(字符串B)]"
实际上:"[…]“方括号内只能表示字符(Char)之间的"或”,不能表示正则表达式之间的或,字符串(String)就是一个正则表达式,故不能表示字符串(String)之间的"或"
应改为:((字符串A)|(字符串B))
另外:[]的另一用处是,只有在[]中^才能表示非

1.3 "^”表示开头,“$”表示结尾

3.误解三:"^A"表示匹配后的子串以A开头,"B$“表示匹配后的子串以B为结尾,”^AB$“表示匹配以A开头以B结束的子串
实际上:”^“表示原字符串的开头,可以想象为原字符串前面还有一个字符X,表达式中的”^“对齐在X的位置;”$“的作用同理。”^AB$“表示原字符串为"AB”,注意因为表达式中AB之间没有字符,所以连表示以A开头以B结束的任意原字符串都不能。
应改为:“A.*B”,子串以啥开头直接写就行了

二 常见需求

2.1 匹配两特定字符(串)之间的一段字符串

分析:正则表达式本身没法指定要匹配的子串前方是什么字符,后方是什么字符,通过正则表达式匹配到的结果只能是正则表达式表示的整个内容。要将两特定字符如"<www.baidu.com>“之间的URL字符串取出来,必须要知道目标子串开头的模式www,然后通过”[^>]*"表示中间的字符内容
应写为:“http[^>]*”

2.2 匹配包含字符串abc或者 123 的字符串

[…]中用的是字符而非一个正则表达式,所以不能用[…]来实现
.(字符串A|字符串B).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值