欢迎大家访问我的个人博客:https://jmbaozi.top/
这个个人博客是我无意中发现的,经过Ping测试服务器应该是在海外,所以传输速度并不理想,为了减轻博主服务器的压力,在本文中进行脱敏处理,如果想要查看网址,可以点击程序或网站自行查看。
根据博客的分类,分成四类来爬取,其中最多的一类照片有2886张,这也是这次爬取中踩坑最多的一类。
共爬取4513张图片,耗时 117min 37sec
以图片最多的一类为例子记录一下。
过程分为:
- 获取每篇博客的链接
- 获取博客中每张图片的链接
- 获取每张图片的二进制信息
- 保存每张图片
1.获取每篇博客的链接
post_href = []#博客链接
def get_href():
for i in range(1,6):#共5页
if i==1:
link = url
else:
link = url + '/page/' + str(i)
r = requests.get(link,headers=headers)
soup = BeautifulSoup(r.text,'lxml')
href_list = soup.find_all('h2',class_='entry-title')
for each in href_list:
href = each.find('a')['href']
post_href.append(href)
2.获取博客中每张图片的链接
img_url = []#图片url
def get_imgURL()