Python爬虫-爬取福利图片&踩坑

最新推荐文章于 2021-08-30 08:00:43 发布

JMbaozi

最新推荐文章于 2021-08-30 08:00:43 发布

阅读量1.7k

点赞数 4

文章标签： python github 经验分享

本文链接：https://blog.csdn.net/qq_43547504/article/details/104962480

版权

本文介绍了使用Python爬虫抓取博客福利图片的过程，包括获取博客链接、图片链接，以及如何处理网络延迟和验证码问题。在抓取过程中，作者遇到服务器在国外导致的速度问题，并采取了不验证证书和随机更换User-Agent的方法来解决。总共成功爬取4513张图片，用时约2小时。

摘要由CSDN通过智能技术生成

欢迎大家访问我的个人博客:https://jmbaozi.top/

这个个人博客是我无意中发现的，经过Ping测试服务器应该是在海外，所以传输速度并不理想，为了减轻博主服务器的压力，在本文中进行脱敏处理，如果想要查看网址，可以点击程序或网站自行查看。

根据博客的分类，分成四类来爬取，其中最多的一类照片有2886张，这也是这次爬取中踩坑最多的一类。

共爬取4513张图片，耗时 117min 37sec

以图片最多的一类为例子记录一下。

过程分为：

获取每篇博客的链接
获取博客中每张图片的链接
获取每张图片的二进制信息
保存每张图片

1.获取每篇博客的链接

post_href = []#博客链接
def get_href():
    for i in range(1,6):#共5页
        if i==1:
            link = url
        else:
            link = url + '/page/' + str(i)    
        r = requests.get(link,headers=headers)
        soup = BeautifulSoup(r.text,'lxml')
        href_list = soup.find_all('h2',class_='entry-title')
        for each in href_list:
            href = each.find('a')['href']
            post_href.append(href)