Spider | Crawl → 推文图片

Spider | Crawl → 推文图片

相关资源下载

原图下载

代码

2021年10月28日凌晨1.30的我还没睡, 看到"不正常人类研究中心"的一篇推文:
看不够的美好年代合影,每一张都是经典!
里面都是记载着老一代香港明星的图片, 虽然我是个零零后, 但是还是看着他们的作品长大的, 于是我就想存下来

from bs4 import BeautifulSoup
import requests


r = requests.get('https://mp.weixin.qq.com/s/uQtPEb3ASEonigIJWwyDhg')
soup = BeautifulSoup(r.content)

a = soup.findAll('img')[2:-4]
for i in range(len(a)):
    img_url = a[i].attrs['data-src']
    img_req = requests.get(img_url)
    with open('./img/{}.jpg'.format(i), 'wb') as f:
        f.write(img_req.content)
    f.close()

在这里插入图片描述

简单说说

在这里插入图片描述

进行页面元素审查, 随便点一张照片可以看到其中相关的网页源代码:

<img class="rich_pages wxw-img" data-fileid="503559211" data-ratio="1.2333333333333334" data-s="300,640" > data-> src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg" data-type="jpeg" data-w="690" style="visibility: visible !important; width: 677px !important; height: auto !important;" _width="677px" src="https://mmbiz.qpic.cn/mmbiz_jpg/Dv7XGZR6eab3w6QHnQIBXXF6k5jupjpJ4exMQlP5YY7TzU8LykmwBQgORaJybK1NLMHbAicgDfdjnn0Ymll8dKA/640?wx_fmt=jpeg&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" crossorigin="anonymous" alt="图片" data-fail="0">

其中:
标签: img
属性: data-src
用 bs4 得到最终链接, 然后保存下来

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值