对于字符串的查找,我想在爬虫的时候是十分苦恼的,想要找到子串的具体位置,我想大多数人眼睛都会看花;
时间久了之后我们会发现字符串的查找并不是那么的简单,也不是简单使用find()方法来找到字符的具体位置;我们通过爬虫来下载图片,获取他的scr
太过繁琐,而且在有的网页爬取当中,他的子网页没有规律可言,这让蜘蛛
十分苦恼;还有就是很难在IP地址定位和对应端口,因为对于这个网页我们找不到“唯一的”class或者id(特征);
针对Python语言,我们使用re模块来实现;
import re
re.search(r"love","I love you !")
>>><re.Match object; span=(2, 6), match='love'>
"""
我们可以发现,这里返回的是包装好的一个‘集’
"""
span() 匹配的范围
a =re.search(r"love","I love you !")
print(a.span