Python爬虫-爬取福利图片&踩坑

本文介绍了使用Python爬虫抓取博客福利图片的过程,包括获取博客链接、图片链接,以及如何处理网络延迟和验证码问题。在抓取过程中,作者遇到服务器在国外导致的速度问题,并采取了不验证证书和随机更换User-Agent的方法来解决。总共成功爬取4513张图片,用时约2小时。
摘要由CSDN通过智能技术生成

欢迎大家访问我的个人博客:https://jmbaozi.top/

这个个人博客是我无意中发现的,经过Ping测试服务器应该是在海外,所以传输速度并不理想,为了减轻博主服务器的压力,在本文中进行脱敏处理,如果想要查看网址,可以点击程序网站自行查看。

根据博客的分类,分成四类来爬取,其中最多的一类照片有2886张,这也是这次爬取中踩坑最多的一类。

共爬取4513张图片,耗时 117min 37sec

以图片最多的一类为例子记录一下。

过程分为:
  • 获取每篇博客的链接
  • 获取博客中每张图片的链接
  • 获取每张图片的二进制信息
  • 保存每张图片
1.获取每篇博客的链接
post_href = []#博客链接
def get_href():
    for i in range(1,6):#共5页
        if i==1:
            link = url
        else:
            link = url + '/page/' + str(i)    
        r = requests.get(link,headers=headers)
        soup = BeautifulSoup(r.text,'lxml')
        href_list = soup.find_all('h2',class_='entry-title')
        for each in href_list:
            href = each.find('a')['href']
            post_href.append(href)
2.获取博客中每张图片的链接
img_url = []#图片url
def get_imgURL()
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值