爬虫入门(9)——Bing美图爬虫

本文介绍了如何爬取Bing美图,包括遇到的HTTP Error 403问题及解决办法,通过分析网页结构获取每页图片链接,并使用正则表达式匹配图片URL。最后成功下载了1513张图片。
摘要由CSDN通过智能技术生成

1.错误

python3 raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 403: Forbid

或是下载的图片打不开

原因:
headers未加,或是添加的内容少了,比如Referer

2.bing美图爬取

这是一个静态的网页,只需要获取图片的链接,就可以下载了。

2.1.网页分析

获取每个页面的链接。
http://bing.plmeizi.com/?page=1
http://bing.plmeizi.com/?page=2

在这里插入图片描述

2.2.获取图片的网址

根据正则表达式,获得图片的地址

src=//bimgs.plmeizi.com/images/bing.*?-listpic

.*:表示匹配任意多的符号
?:表示不贪心匹配,出现多个模式,返回多个结果

注意在请求下载时,请求头的书写,不然无法下载图片。

3.代码

# coding: utf-8
# Author: shelley
# 2020/9/18,11:51
import requests
import re

def get_all_images(end_page):
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值