爬虫(06)正则表达式下+csv入门 2020-12-25

本文介绍了Python中re模块的常用方法,如compile()、search()、findall()、split()和sub(),并结合实例进行了详细解释。同时,文章还涵盖了csv文件的读写操作,包括使用writer和DictWriter写入数据,以及reader和DictReader读取数据。通过一个百度图片爬取的案例,巩固了正则表达式和csv的使用。
摘要由CSDN通过智能技术生成

第六章 正则表达式下与csv入门

1. re常用方法

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

1.1 compile()

compile(pattern, flags=0)
这个⽅法是re模块的工厂法,⽤于将字符串形式的正则表达式编译为Pattern模式对象,可以实现更加效率的匹配。第二个参数flag是匹配模式 使用compile()完成一次转换后,再次使用该匹配模式的时候就不能进行转换了。经过compile()转换的正则表达式对象也能使用普通的re⽅法。
例子:

import re
pat = re.compile(r'abc')
print(pat,type(pat))

结果

re.compile('abc') <class 're.Pattern'>

它是一个re.Pattern类,下面我们可以这样操作:

import re
pat = re.compile(r'abc')

print(pat.match('abc12345').group())

结果

abc

加入这里是大写的ABC就不能匹配成功了。我们需要用re.I使得大小写匹配不敏感。

import re
pat = re.compile(r'abc',re.I)
print(pat.match('ABC123').group())

ABC

1.2 search()

search(pattern, string, flags=0)
在文本内查找,返回第一个匹配到的字符串。它的返回值类型和使用方法与match()是一样的,唯一的区别就是查找的位置不用固定在文本的开头,当要匹配的字符串不在开头时可以用search

res = re.search(r'abc','123abc456abc789').group()
print(res)

abc

发现只匹配了第一个,后面还有却没有匹配到。这个时候我们可以用findall:

1.3 findall()

findall(pattern, string, flags=0)
作为re模块的三大搜索函数之一,findall()和match()、search()的不同之处在于,前两者都是单值匹配,找到一个就忽略后面,直接返回不再查找了。而findall是全文查找,它的返回值是一个匹配到的字符串的列表。这个列表没有group()方法,没有start、end、span,更不是一个匹配对象,仅仅是个列表!如果一项都没有匹配到那么返回一个空列表。

res = re.findall(r'abc','123abc456abc789') # 注意这里不需要再点group()了
print(res)

[‘abc’, ‘abc’]

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值