Spider | Crawl → 推文图片

Caffiny

已于 2022-04-07 09:25:35 修改

阅读量262

点赞数 1

分类专栏：参考文章标签： python

于 2022-04-07 09:07:23 首次发布

本文链接：https://blog.csdn.net/JackyAce6880/article/details/124005274

版权

参考专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Spider | Crawl → 推文图片

文章目录

Spider | Crawl → 推文图片
相关资源下载
代码
简单说说

代码

2021年10月28日凌晨1.30的我还没睡, 看到"不正常人类研究中心"的一篇推文:
看不够的美好年代合影，每一张都是经典！
里面都是记载着老一代香港明星的图片, 虽然我是个零零后, 但是还是看着他们的作品长大的, 于是我就想存下来

from bs4 import BeautifulSoup
import requests


r = requests.get('https://mp.weixin.qq.com/s/uQtPEb3ASEonigIJWwyDhg')
soup = BeautifulSoup(r.content)

a = soup.findAll('img')[2:-4]
for i in range(len(a)):
    img_url = a[i].attrs['data-src']
    img_req = requests.get(img_url)
    with open('./img/{}.jpg'.format(i), 'wb') as f:
        f.write(img_req.content)
    f.close()

在这里插入图片描述

简单说说

在这里插入图片描述

进行页面元素审查, 随便点一张照片可以看到其中相关的网页源代码:

<img class="rich_pages wxw-img" data-fileid="503559211" data-ratio="1.2333333333333334" data-s="300,640" > data-> src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg" data-type="jpeg" data-w="690" style="visibility: visible !important; width: 677px !important; height: auto !important;" _width="677px" src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1" crossorigin="anonymous" alt="图片" data-fail="0">

其中:
标签: img
属性: data-src
用 bs4 得到最终链接, 然后保存下来