Spider | Crawl → 推文图片
相关资源下载
代码
2021年10月28日凌晨1.30的我还没睡, 看到"不正常人类研究中心"的一篇推文:
看不够的美好年代合影,每一张都是经典!
里面都是记载着老一代香港明星的图片, 虽然我是个零零后, 但是还是看着他们的作品长大的, 于是我就想存下来
from bs4 import BeautifulSoup
import requests
r = requests.get('https://mp.weixin.qq.com/s/uQtPEb3ASEonigIJWwyDhg')
soup = BeautifulSoup(r.content)
a = soup.findAll('img')[2:-4]
for i in range(len(a)):
img_url = a[i].attrs['data-src']
img_req = requests.get(img_url)
with open('./img/{}.jpg'.format(i), 'wb') as f:
f.write(img_req.content)
f.close()
简单说说
进行页面元素审查, 随便点一张照片可以看到其中相关的网页源代码:
<img class="rich_pages wxw-img" data-fileid="503559211" data-ratio="1.2333333333333334" data-s="300,640" > data-> src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg" data-type="jpeg" data-w="690" style="visibility: visible !important; width: 677px !important; height: auto !important;" _width="677px" src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1" crossorigin="anonymous" alt="图片" data-fail="0">
其中:
标签: img
属性: data-src
用 bs4 得到最终链接, 然后保存下来