2019-11-20 爬网页5-解决带Authorization的http请求

本文讲述了在爬取内网服务器网页时遇到的授权验证问题。当请求头缺少Authorization字段时,无法成功获取信息。通过在浏览器中观察网络请求,发现添加正确的Authorization头后,可以正常访问页面。最终通过在代码中追加设置Authorization头,成功实现了爬虫的网页抓取。了解更多关于Authorization的详情,可参考相关链接。
摘要由CSDN通过智能技术生成

工作中需要爬一台内网中服务器的网页,自动获取返回的图片信息。
但是执行代码没有获得希望的信息。

尝试在浏览器中输入网址,结果跳以下界面
在这里插入图片描述
原来是要验证才能连接成功。
点击‘取消’,观察网络信息
在这里插入图片描述
果然是这样。请求头中没有包含Authorization,所以验证没通过。

然后再尝试一下,输入用户名和口令,网页可以正常显示。
观察网络信息,此时请求头中出现了Authorization。
在这里插入图片描述
网上查了一下,一堆攻略,基本都是一个意思。
追加代码如下:

def get_authorization():
    return base64.b64encode(user_name + ":" + user_passwd);
headers = {
    'Authorization': 'Basic {}'.format(get_authorization()),
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值