爬虫（06）正则表达式下+csv入门 2020-12-25

最新推荐文章于 2022-05-10 20:18:49 发布

辉子2020

最新推荐文章于 2022-05-10 20:18:49 发布

阅读量341

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/m0_46738467/article/details/111661355

版权

本文介绍了Python中re模块的常用方法，如compile()、search()、findall()、split()和sub()，并结合实例进行了详细解释。同时，文章还涵盖了csv文件的读写操作，包括使用writer和DictWriter写入数据，以及reader和DictReader读取数据。通过一个百度图片爬取的案例，巩固了正则表达式和csv的使用。

摘要由CSDN通过智能技术生成

文章目录

第六章正则表达式下与csv入门

第六章正则表达式下与csv入门

1. re常用方法

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

1.1 compile()

compile(pattern, flags=0)
这个⽅法是re模块的工厂法，⽤于将字符串形式的正则表达式编译为Pattern模式对象，可以实现更加效率的匹配。第二个参数flag是匹配模式使用compile()完成一次转换后，再次使用该匹配模式的时候就不能进行转换了。经过compile()转换的正则表达式对象也能使用普通的re⽅法。
例子：

import re
pat = re.compile(r'abc')
print(pat,type(pat))

结果

re.compile('abc') <class 're.Pattern'>

它是一个re.Pattern类，下面我们可以这样操作：

import re
pat = re.compile(r'abc')

print(pat.match('abc12345').group())

结果

abc

加入这里是大写的ABC就不能匹配成功了。我们需要用re.I使得大小写匹配不敏感。

import re
pat = re.compile(r'abc',re.I)
print(pat.match('ABC123').group())

ABC

1.2 search()

search(pattern, string, flags=0)
在文本内查找，返回第一个匹配到的字符串。它的返回值类型和使用方法与match()是一样的，唯一的区别就是查找的位置不用固定在文本的开头，当要匹配的字符串不在开头时可以用search

res = re.search(r'abc','123abc456abc789').group()
print(res)

abc

发现只匹配了第一个，后面还有却没有匹配到。这个时候我们可以用findall：

1.3 findall()

findall(pattern, string, flags=0)
作为re模块的三大搜索函数之一，findall()和match()、search()的不同之处在于，前两者都是单值匹配，找到一个就忽略后面，直接返回不再查找了。而findall是全文查找，它的返回值是一个匹配到的字符串的列表。这个列表没有group()方法，没有start、end、span，更不是一个匹配对象，仅仅是个列表！如果一项都没有匹配到那么返回一个空列表。

res = re.findall(r'abc','123abc456abc789') # 注意这里不需要再点group()了
print(res)

[‘abc’, ‘abc’]

最低0.47元/天解锁文章

辉子2020

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫（06）正则表达式下+csv入门 2020-12-25

文章目录1. re常用方法1.1 compile()1.2 search()1.3 findall()1.4 split()1.5 sub()2. re模块分组3. 案例：百度图片爬取3.1 案例思路分析3.2 案例代码1. re常用方法正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不
复制链接

扫一扫