HTTP
文章平均质量分 69
上善若水。。
学无止境
展开
-
代理服务器
爬虫正常运行过程中正常抓取数据,但有时可能就会错误,比如403 Forbidden,表示服务器拒绝客户端的访问,你可能会看到“您的IP访问评率太高”这样的提示。出现这种现象的原因时网站采取了一些反爬虫措施。比如,当服务器检测到某个IP在单位时间内的请求次数超过了设定的阈值,就会直接拒接服务,返回一些错误信息,这种情况称为封IP。解决这种问题的有效方式之一时使用代理伪装IP。一、代理的基本原理代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息,可以将它理解原创 2022-01-02 15:14:05 · 2461 阅读 · 0 评论 -
HTTP基本原理:响应
响应,由服务器返回给客户端。一个响应可以分为三部分:响应状态码(Response Status Code)、响应头(Response Headers)、响应体(Response Body)。一、响应状态码响应状态码表示服务器的响应状态, 如200表示服务器正常响应,404代表客户端请求的页面在服务端不存在、500代表服务器内部发生错误。在爬虫中,我们可以根据响应状态码来判断服务器响应状态,如状态码为200则证明成功返回数据,进行进一步的处理,否则直接忽略。常用的响应状态码如下表所示:状态码说原创 2022-01-01 16:13:38 · 1129 阅读 · 0 评论 -
HTTP基本原理:请求
请求,由客户端向服务器发出。一个请求可以分为4部分内容:请求方法(Request Method)、请求路径(Request URL)、请求头(Request Headers)、请求体(Request Body)。一、请求方法1)常用的请求方法有两种:GET和POST。在浏览器中直接输入URL并回车,这相当于发起一个GET请求,请求的参数会直接拼接在URL的后面。例如,在百度中搜索Python,这就是一个GET请求,URL为https://www.baidu.com/s?wd=Python,其中URL原创 2022-01-01 15:07:49 · 1609 阅读 · 0 评论 -
HTTP基本原理:HTTP请求过程与案例分析
一、HTTP请求过程在浏览器中输入一个URL,回车之后便会在浏览器中看到页面内容。在这个过程中浏览器向网站所在的服务器发送了一个请求,网站服务器收到这个请求后进行处理,然后返回响应,传回给浏览器,响应里包含了页面的源代码等内容,浏览器再对其进行解析,然后将网页呈现出来。此处的客户端代表我们自己的PC或手机浏览器,服务器即要访问的网站所在的服务器。二、案例1)打开浏览器,访问百度,右击并选择“检查”项打开浏览器的开发者工具,选择Network项,Network下方出现了一个个条目,其中一个条目就代表原创 2022-01-01 13:49:13 · 1843 阅读 · 0 评论 -
HTTP基本原理:HTTP和HTTPS
在访问某一网站时,其URL的开头会有http或https,它就是访问资源所使用的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,这些都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的。一、HTTPHTTP的全称是Hyper Text Transfer Protocol,即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。目前广泛使用的是HTTP 1.1版本。二、HTTPSHTTPS的全称是Hy原创 2022-01-01 12:22:11 · 1157 阅读 · 0 评论