Python网络爬虫与信息提取(七)re库的基本方法

本文介绍了Python内置的re库,主要讲解了re.search、re.match、re.findall、re.split、re.finditer和re.sub等六个常用函数的用法和参数。re库使用原生字符串表示正则表达式,方便处理正则表达式中的特殊字符。文章还探讨了正则表达式的匹配方式,包括贪婪匹配和最小匹配的概念。
摘要由CSDN通过智能技术生成

  re库是Python自带的库,re库采用raw string(原生字符串)类型表示正则表达式,输入时需表示为r'text',若不添加开头的raw_input标识符,则需要对文本中的"\"进行转义,这会徒增很多不必要的麻烦,所以使用正则表达式时尽量用原生字符串类型来表示。

  re库含有许多功能函数,在此先介绍其中最常用的六个,其他的函数在今后的实际问题中再具体解析。

函数 说明
re.search()  在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()  在一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()  搜索字符串,以列表类型返回全部能匹配的子串
re.split()  将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer()  搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub()  在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

下面来解释下各个功能函数的参数:

re.search(pattern, string, flag=0) 

pattern: 正则表

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值