HTTP代理是如何爬取数据的

最新推荐文章于 2024-02-01 14:39:15 发布

weixin_34038652

最新推荐文章于 2024-02-01 14:39:15 发布

阅读量339

点赞数

文章标签：前端网络 javascript ViewUI

原文链接：https://juejin.im/post/5c1205a56fb9a04a102f275c

版权

http代理

存在2种形式，下面为大家简单的介绍一下

第一种为普通代理。这种

http代理扮演得是一个中介得角色，对于链接到他的客户端来说，他就是服务器，而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。

第二种为隧道代理。他通过

http协议得正文部分（Body)完成通讯，以http的方式实现任意基于TCP的应用层协议代理。这种代理使用http的connect方法建立链接

。

普通代理

第一种

web代理原理是：

HTTP 客户端向代理发送请求报文，代理服务器需要正确地处理请求和连接（例如正确处理 Connection: keep-alive），同时向服务器发送请求，并将收到的响应转发给客户端。

下面这张图片来自于《

HTTP 权威指南》，直观地展示了上述行为：

假设客户通过代理网站访问

A网站，对于A来讲他会把代理当作客户端，真正的网民使用的真实地址，他是察觉不到的，完全实现隐藏，而客户端IP的目的。也可以修改http头部，通过X-Forwarded-IP

这样的自定义头部告知服务端真正的客户端

IP。

但服务器无法验证这个自定义头部真的是由代理添加，还是客户端修改了请求头，所以从

HTTP 头部字段获取 IP 时，需要格外小心。

给浏览器显式的指定代理，需要手动修改浏览器或操作系统相关设置，或者指定

PAC（Proxy Auto-Configuration，自动配置代理）文件自动设置，还有些浏览器支持 WPAD（Web Proxy Autodiscovery Protocol，Web 代理自动发现协议）。显式指定浏览器代理这种方式一般称之为正向代理，浏览器启用正向代理后，会对 HTTP 请求报文做一些修改，来规避老旧代理服务器的一些问题

。

还有一种情况是访问

A 网站时，实际上访问的是代理，代理收到请求报文后，再向真正提供服务的服务器发起请求，并将响应转发给浏览器。这种情况一般被称之为反向代理，它可以用来隐藏服务器 IP 及端口。一般使用反向代理后，需要通过修改 DNS 让域名解析到代理服务器 IP，这时浏览器无法察觉到真正服务器的存在，当然也就不需要修改配置了。反向代理是 Web 系统最为常见的一种部署方式，例如本博客就是使用 Nginx 的 proxy_pass 功能将浏览器请求转发到背后的 Node.js 服务。

隧道代理

第二种

Web 代理的原理也很简单：

HTTP 客户端通过 CONNECT 方法请求隧道代理创建一条到达任意目的服务器和端口的 TCP 连接，并对客户端和服务器之间的后继数据进行盲转发。

下面这张图片同样来自于《

HTTP 权威指南》，直观地展示了上述行为：

假如我通过代理访问

A 网站，浏览器首先通过 CONNECT 请求，让代理创建一条到 A 网站的 TCP 连接；一旦 TCP 连接建好，代理无脑转发后续流量即可。所以这种代理，理论上适用于任意基于 TCP 的应用层协议，HTTPS 网站使用的 TLS 协议当然也可以。这也是这种代理为什么被称为隧道的原因。

本文转载改编自作者

xujinyang2018

，改编单位犀牛代理

转载于:https://juejin.im/post/5c1205a56fb9a04a102f275c

weixin_34038652

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTTP代理是如何爬取数据的

http代理存在2种形式，下面为大家简单的介绍一下第一种为普通代理。这种http代理扮演得是一个中介得角色，对于链接到他的客户端来说，他就是服务器，而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。第二种为隧道代理。他通过http协议得正文部分（Body)完成通讯，以http的方式实现任意基于TCP的应用层协议代理。这种代理使用http的connect方法建立链接。普通代...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。