看别人写的爬虫代码
def getHtml(url):
html = requests.get(url).text #requests.get(url) 拿到这个网址的信息 .text 则是把网页信息以文本形式输出
urls = re.findall('"objURL":"(.*?)"',html, re.S) #匹配正则条件 / 匹配的目标文件 / 使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。
return urls#urls的返回值就是一串串的字符串
其中
urls = re.findall('"objURL":"(.*?)"',html, re.S)
测试
c = '''w23r23think
asfnfhrwsdxvpad423'''
a = re.findall('think(.*?)pad',c)
b = re.findall('think(.*?)pad',c,re.S)
print(a)
print(b)
输出
[]
['\nasfnfhrwsdxv']
区别
//带re.S的可以换行识别