爬虫 http error 403: forbidden_爬虫是如何实现的

最新推荐文章于 2024-05-01 22:42:15 发布

weixin_39814369

最新推荐文章于 2024-05-01 22:42:15 发布

阅读量973

点赞数

文章标签：爬虫 http error 403: forbidden

爬虫的基本原理和基本库使用

爬虫简单来说就是获取网页并提取和保存信息的自动化程序。

获取网页

获取网页的源代码：向网站的服务器发送一个请求，返回的响应体便是网页源代码。

提取信息

分析网页源代码，从中提取我们想要的数据。最通用的方式便是采用正则表达式提取

保存数据

将提取到的数据保存到某处以便以后使用

自动化程序

利用爬虫代替我们完成这份爬取工作的自动化程序

爬虫过程中遇到的一些情况：比如403错误，打开网页一看，可能会看到"您的ip访问频率过高"这样提示，是因为网站采用了一些反爬虫的措施，这个时候我们可以使用代理，所谓的代理，就是代理服务器，就是一个网络信息的中转站，正常请求一个网站的时候，是发送给web服务器，web服务器吧响应传回给我们，如果我们设置了代理服务器，就相当于本机和服务器之间搭了一座桥，本机向代理服务器发送请求，再由代理服务器发送给Web服务器。再由代理服务器把web服务器返回的响应转发本机，这样我们就实现了IP伪装

网上免费代理比较多，但最好筛选一下可用代理，付费的质量会比免费代理好很多

然后我们正式来开始学习爬虫的一些基本使用库(python3环境),这里我们用的是pycharm软件

使用urllib

Urlopen

Urllib.request模块提供了最基本的构造HTTP请求的方法，可以利用它模拟浏览器一个请求发起的过程,这里我们以python官网为例

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.read().decode('utf-8'))

这样我们就完成了python官网的抓取

2.Type

然后我们可以用type()方法输出响应的类型

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(type(response))

可以发现他是一个HTTPResponse类型对象，主要包含read(),readinto(),getheader(name),getheaders()等方法。

我们可以把它赋值为response变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了

例如：

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.status)

返回200代表请求成功，在本篇文章末尾会有一张状态码表，可以进行对照

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.getheaders())

输出响应的状态码和响应的头信息import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.getheader('Server'))

传递了一个server值获取了响应头中的server值，返回的意思是服务器用nginx搭建的

如果想给链接传一些参数:

DATA参数：如果添加该函数，需要使用byte()方法将参数转化为字节流编码格式的内容，如果传递了这个函数，则它的请求方式就不是GET方式，而是POST方式，这里我们请求站点是http://httpbin.org/post，他可以测试post

import parseimport urllib.requestdata=bytes(urllib.parse.urlencode({'word':'Hello'}),encoding='utf-8')#将字符转化为字符串response=urllib.request.urlopen('http://httpbin.org/post',data=data)print(response.read())

可以看到我们传递的参数在form字段中

timeout参数：用于设置超时时间(s)，如果超出设置的时间没有得到相应，就会抛出异常，不指定参数就会使用全局默认时间

import urllib.requestresponse=urllib.request.urlopen('http://httpbin.org/get',timeout=1)print(response.read())

因为我们设置的时间1秒，超过1秒后服务器没响应，因此抛出异常

因此我们可以设置这个超时时间来控制一个网页长时间没有响应后，就跳过它的抓取

import socketimport urllib.requestimport urllib.errortry: response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)except urllib.error.URLError as e: if isinstance(e.reason,socket.timeout): print('TIME OUT')

设置时间为0.1s,因为太短了得不到服务器响应，因此打印timeout

Request

我们知道利用urlopen()方法可以实现最基本的请求发起，但这几个简单参数不足以构建个完整的请求，如果请求中需要加入Headers等信息，可以利用Request来构建

from urllib import request,parseurl='http://httpbin.org/post'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)','Host':'httpbin.org'}dict={ 'name' :'Germey'}data=bytes(parse.urlencode(dict),encoding='utf-8')req=request.Request(url=url,headers=headers,method='POST')response=request.urlopen(req)print(response.read().decode('utf-8'))

构造了四个函数,url即请求URL,headers中置顶了User=Agent和HOST，参数data用urlencode()和bytes()方法转成了字节流，另指定了POST

我们成功设置了data,headers和method

最后喜欢我文章的朋友请加圈子关注我们，加我们的qq群:251573549

每天都会更新信息安全福利给大家哦，小编也会在群里一一为大家解决问题

weixin_39814369

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫 http error 403: forbidden_爬虫是如何实现的

爬虫的基本原理和基本库使用爬虫简单来说就是获取网页并提取和保存信息的自动化程序。获取网页获取网页的源代码：向网站的服务器发送一个请求，返回的响应体便是网页源代码。提取信息分析网页源代码，从中提取我们想要的数据。最通用的方式便是采用正则表达式提取保存数据将提取到的数据保存到某处以便以后使用自动化程序利用爬虫代替我们完成这份爬取工作的自动化程序爬虫过程中遇到的一些情况：比如403错误，打开网页一看，可...
复制链接

扫一扫