爬虫获取主页信息并修改报头

最新推荐文章于 2023-03-13 14:42:02 发布

Zeker62

最新推荐文章于 2023-03-13 14:42:02 发布

阅读量135

点赞数

分类专栏：网络安全学习文章标签： python http

本文链接：https://blog.csdn.net/ZripenYe/article/details/119463072

版权

网络安全学习专栏收录该内容

134 篇文章 21 订阅

订阅专栏

该博客介绍了如何使用Python的urllib.request模块创建一个名为GetHtml的类，用于模拟浏览器请求网页。通过设置user-agent头部信息，避免被服务器识别为爬虫。GetHtml类包含构造函数和get_index方法，后者用于获取并返回指定URL的网页源代码。

摘要由CSDN通过智能技术生成

先上代码

import urllib.request

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url=URL
        self.head=HEAD

    def get_index(self):
        self.request=urllib.request.Request(self.url)
        self.request.add_header("user-agent",self.head)
        self.response=urllib.request.urlopen(self.request)
        return self.response.read()



html=GetHtml("http://192.168.2.133/fake","Mozilla/5.0 (Windows NT 8.1; Win32; x86) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62");

print(html.get_index())

解释

我创造了一个192.168.2.133/fake的假网站专门用作爬虫
urllib.request 是以浏览器的方式请求url响应的包
创建GetHtml类，构造函数分别有：获取主页url和报头
get_index方法是初始化
首先使用包下的Request方法请求到url
其次在request的前面添加我们的报头，报头的前面还要加上user-agent
然后我们在响应里使用urlopen将响应的内容赋值
最后返回我们的响应数值

在这里插入图片描述

Zeker62

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫获取主页信息并修改报头

先上代码import urllib.requestclass GetHtml(object): def __init__(self,URL,HEAD): self.url=URL self.head=HEAD def get_index(self): self.request=urllib.request.Request(self.url) self.request.add_header("user-agent",sel
复制链接

扫一扫