2019-11-20 爬网页5-解决带Authorization的http请求

最新推荐文章于 2024-07-13 02:23:36 发布

没人不认识我

最新推荐文章于 2024-07-13 02:23:36 发布

阅读量2.3k

点赞数

分类专栏： python IT

本文链接：https://blog.csdn.net/weixin_42555985/article/details/103163463

版权

本文讲述了在爬取内网服务器网页时遇到的授权验证问题。当请求头缺少Authorization字段时，无法成功获取信息。通过在浏览器中观察网络请求，发现添加正确的Authorization头后，可以正常访问页面。最终通过在代码中追加设置Authorization头，成功实现了爬虫的网页抓取。了解更多关于Authorization的详情，可参考相关链接。

摘要由CSDN通过智能技术生成

工作中需要爬一台内网中服务器的网页，自动获取返回的图片信息。
但是执行代码没有获得希望的信息。

尝试在浏览器中输入网址，结果跳以下界面
在这里插入图片描述
原来是要验证才能连接成功。
点击‘取消’，观察网络信息

果然是这样。请求头中没有包含Authorization，所以验证没通过。

然后再尝试一下，输入用户名和口令，网页可以正常显示。
观察网络信息，此时请求头中出现了Authorization。
在这里插入图片描述
网上查了一下，一堆攻略，基本都是一个意思。
追加代码如下：

def get_authorization():
    return base64.b64encode(user_name + ":" + user_passwd);
headers = {
    'Authorization': 'Basic {}'.format(get_authorization()),
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,