Python爬虫，如果有空格的话要增加.*?class而不是直接后面跟class

最新推荐文章于 2024-03-11 15:44:40 发布

u011159607

最新推荐文章于 2024-03-11 15:44:40 发布

阅读量599

点赞数

分类专栏： python爬虫

python爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

目标网站：http://bohaishibei.com/post/category/main/（一个很有趣的网站，一段话配一个图，老有意思了～）网站形式如下：

爬取标题和图片链接


import re
import requests
url="https://bh.sb/post/category/main/"
r=requests.get(url)
print (r.status_code)
content=r.content

#print(content)
pattern=re.compile(r'<h2><a.*?title=(.*?) - 博海拾贝.*?<\h2>.*?src="(.*?)".*?class',re.S)

#itle=re.findall(pattern,content.decode('utf-8'))
title = re.findall(pattern,content.decode('utf-8'))
for i in title:
   print(i)




本来是

import re
import requests
url="https://bh.sb/post/category/main/"
r=requests.get(url)
print (r.status_code)
content=r.content

#print(content)
pattern=re.compile(r'<h2><a.*?title=(.*?) - 博海拾贝.*?<\h2>.*?src="(.*?)class',re.S)#后面直接跟class

#itle=re.findall(pattern,content.decode('utf-8'))
title = re.findall(pattern,content.decode('utf-8'))
for i in title:
   print(i)