Python爬虫学习三——re库

本文介绍了Python中用于正则表达式的re库,包括re库的基本语法、主要函数和match对象。通过实例解析了贪婪匹配和最小匹配的概念,帮助理解如何在Python爬虫中运用正则表达式提取数据。
摘要由CSDN通过智能技术生成

Python爬虫学习三——re库

bs库是提取网页内容的一种方法,另外一种提取网页感兴趣内容的方法就是使用re库,通过匹配得到对应的字符串。

1 re简介

re、regex、regular expression、正则表达式,一个意思。正则表达式是用来简洁表达一组字符串的表达式。正则表达式使用的是特征,和python一样具有简单优雅的特点。正则表达式的应用十分广泛,最常见也最容易视而不见的地方就是文本搜索,如word中搜索高级选项中就有使用正则表达式一项,勾选之后可以使用正则表达式来搜索具有某种特征的文本内容。
初看正则表达式,如”-?\d+$”,会有“这确定不是乱码?”的疑问,深入学习之后,就会发现一个新世界。本人水平有限,本文仅介绍简单的正则表达式。对了,上述乱码似的正则表达式表示的是整数形式的字符串。
re库是python中的默认库,无论你安装基本的python环境还是anaconda等集成环境,都已经安装了re库,可以使用import re来测试。

2 re基本语法

正则表达式语言由字符和操作符构成。常用的正则表达式操作符有:
re常用操作符1

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值