爬虫获取主页信息并修改报头

该博客介绍了如何使用Python的urllib.request模块创建一个名为GetHtml的类,用于模拟浏览器请求网页。通过设置user-agent头部信息,避免被服务器识别为爬虫。GetHtml类包含构造函数和get_index方法,后者用于获取并返回指定URL的网页源代码。
摘要由CSDN通过智能技术生成

先上代码

import urllib.request

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url=URL
        self.head=HEAD

    def get_index(self):
        self.request=urllib.request.Request(self.url)
        self.request.add_header("user-agent",self.head)
        self.response=urllib.request.urlopen(self.request)
        return self.response.read()



html=GetHtml("http://192.168.2.133/fake","Mozilla/5.0 (Windows NT 8.1; Win32; x86) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62");

print(html.get_index())

解释

  • 我创造了一个192.168.2.133/fake的假网站专门用作爬虫
  • urllib.request 是以浏览器的方式请求url响应的包
  • 创建GetHtml类,构造函数分别有:获取主页url和报头
  • get_index方法是初始化
  • 首先使用包下的Request方法请求到url
  • 其次在request的前面添加我们的报头,报头的前面还要加上user-agent
  • 然后我们在响应里使用urlopen将响应的内容赋值
  • 最后返回我们的响应数值

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Zeker62

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值