Python爬虫之正则表达式

本文介绍了Python爬虫中正则表达式的使用,包括操作符、常用方法如search、match、findall、split、finditer、sub等,以及Match对象和正则匹配策略。重点讲解了正则表达式的各种匹配模式及其在爬虫中的应用。
摘要由CSDN通过智能技术生成

Python爬虫之正则表达式

爬虫的分类:网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种

  • 通用爬虫:通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
  • 聚焦爬虫:聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

1.操作符

  • \S :与 \s 相反

  • \w :

    • 对于 str 类型,匹配任何 单词字符 ,包括 [a-zA-Z0-9_] 以及其它单词字符
    • 对于 str 类型开启 re.ASCII 标志或者 bytes 类型,只匹配 [a-zA-Z0-9_]
  • \W :与 \w 相反

  • [ ] :匹配 括号内所包含的任意一个字符

    • 若连字符 (-) 出现在字符串中间则表示范围,出现在首位则作普通字符;
    • 若脱字符 (^) 出现在字符串首位则表示排除,出现在中间则作普通字符
  • \s :

    • 对于 str 类型,匹配任何 空白字符 ,包括 [\t\n\r\f\v] 以及其它空白字符
    • 对于 str 类型开启 re.ASCII 标志或者 bytes 类型,只匹配 [\t\n\r\f\v]
  • . :匹配除换行符之外的 所有字符

  • ^ :匹配字符串的 开始位置

  • $ :匹配字符串的 结束位置

  • * :匹配字符串 零次或多次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式)

  • + :匹配字符串 一次或多次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式)

  • ? :匹配字符串 零次或一次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值