Go分布式爬虫学习笔记(十五)_httputil reverseproxy read error during body copy

2401_84138835

已于 2024-04-21 11:01:46 修改

阅读量879

点赞数 29

分类专栏： 2024年程序员学习文章标签： golang 分布式爬虫

于 2024-04-21 11:01:45 首次发布

本文链接：https://blog.csdn.net/2401_84138835/article/details/138028103

版权

2024年程序员学习专栏收录该内容

130 篇文章 1 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

Go实现代理

HTTP 隧道代理
MITM 代理
透明代理
反向代理
如何在实际项目中实现代理？
- 如何访问代理服务器？

怎么选择代理地址？

15_代理

什么是代理?

代理是指在客户端和服务器之间路由流量的服务，用于实现系统安全、负载均衡等功能。

在爬虫项目中，代理服务器常常扮演着重要的角色，它能帮助我们突破服务器带来的限制和封锁，达到正常抓取数据的目的。

正向代理

正向代理会向一个客户端或一组客户端提供代理服务。
通常，这些客户端属于同一个内部网络。当客户端尝试访问外部服务器时，请求必须首先通过正向代理。

为什么需要这多余的中间层呢？

监控

请求与回复
鉴权
控制访问权限
隐藏客户端实际地址

隐藏了客户端的真实地址之后，正向代理可以绕过一些机构的网络限制，这样一些互联网用户就实现了匿名性。

Go实现代理

func main() {
server := &http.Server{
Addr: “:8888”,
Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
handleHTTP(w, r)
}),
}
log.Fatal(server.ListenAndServe())
}

func handleHTTP(w http.ResponseWriter, req *http.Request) {
resp, err := http.DefaultTransport.RoundTrip(req)
if err != nil {
http.Error(w, err.Error(), http.StatusServiceUnavailable)
return
}
defer resp.Body.Close()
copyHeader(w.Header(), resp.Header)
w.WriteHeader(resp.StatusCode)
io.Copy(w, resp.Body)
}
func copyHeader(dst, src http.Header) {
for k, vv := range src {
for _, v := range vv {
dst.Add(k, v)
}
}
}

在这个例子中:

代理服务器接受来自客户端的 HTTP 请求
通过 handleHTTP 函数对请求进行处理。

当前代理服务器获取客户端的请求
用自己的身份发送请求到服务器。
代理服务器获取到服务器的回复后
会再次利用 io.Copy 将回复发送回客户端。

代理服务器除了要在客户端与服务器之间搭建起一个管道，有时还需要处理一些特殊的 HTTP 请求头: hop-by-hop 请求头。

hop-by-hop: 不是给目标服务器使用的，它是专门给中间的代理服务器使用的。例如在 Go httputil 标准库中，就包含了如下 hop-by-hop 请求头：

var hopHeaders = []string{
“Connection”,
“Proxy-Connection”,
“Keep-Alive”,
“Proxy-Authenticate”,
“Proxy-Authorization”,
“Te”,
“Trailer”,
“Transfer-Encoding”,
“Upgrade”,
}

代理服务器需要根据情况对 hop-by-hop 请求头做一些特殊处理，并在发送给目标服务器之前删除 hop-by-hop 请求头。

HTTP 隧道代理

在 HTTP 隧道技术中，客户端会在第一次连接代理服务器时给代理服务器发送一个指令，通常是一个 HTTP 请求。这里我们可以将 HTTP 请求头中的 method 设置为 CONNECT。

CONNECT example.com:443 HTTP/1.1

代理服务器收到该指令后，将与目标服务器建立 TCP 连接。
连接建立后，代理服务器会将之后收到的请求通过 TCP 连接转发给目标服务器。

因此，只有初始连接请求是 HTTP，之后，代理服务器将不再嗅探到任何数据，它只是完成一个转发的动作。现在如果我们去查看其他开源的代理库，就会明白为什么会对 CONNECT 方法进行单独的处理了，这是业内通用的一种标准。

func main() {
server := &http.Server{
Addr: “:9981”,
Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
if r.Method == http.MethodConnect {
handleTunneling(w, r)
} else {
handleHTTP(w, r)
}
}),
}
log.Fatal(server.ListenAndServe())
}

func handleTunneling(w http.ResponseWriter, r http.Request) {
dest_conn, err := net.DialTimeout(“tcp”, r.Host, 10time.Second)
if err != nil {
http.Error(w, err.Error(), http.StatusServiceUnavailable)
return
}
w.WriteHeader(http.StatusOK)
hijacker, ok := w.(http.Hijacker)
if !ok {
http.Error(w, “Hijacking not supported”, http.StatusInternalServerError)
return
}
// 我们通过 hijacker.Hijack() 拿到了客户端与代理服务器之间的底层 TCP 连接
// 当调用 hijacker.Hijack() 拿到底层连接之后，hijackLocked 函数会为变量 hijackedv 赋值为 true。
// Go HTTP 标准库会在不同的阶段检测到该变量是否为 true，如果为 true 将放弃后续标准库的托管处理。
client_conn, _, err := hijacker.Hijack()
if err != nil {
http.Error(w, err.Error(), http.StatusServiceUnavailable)
}
go transfer(dest_conn, client_conn)
go transfer(client_conn, dest_conn)
}

func transfer(destination io.WriteCloser, source io.ReadCloser) {
defer destination.Close()
defer source.Close()
// 通过 io.Copy 就简单地串联起了一个管道，实现了数据包在服务器与客户端之间的相互转发。
// 在工业级代码中，我们一般会写一个 for 循环，控制每一次转发的数据包大小。
io.Copy(destination, source)
}

这里，当探测到 HTTP 请求是 CONNECT 方法之后，handleTunneling 函数会进行特殊处理，建立与服务器的 TCP 连接。在之后，代理服务器会将数据包从服务器转发到客户端。

‍

在 Go 标准库 httputil 中，有一段实现将 src 数据拷贝到了 dst 中的操作，你可以参考一下：

func (p ReverseProxy) copyBuffer(dst io.Writer, src io.Reader, buf []byte) (int64, error) {
if len(buf) == 0 {
buf = make([]byte, 321024)
}
var written int64
for {
nr, rerr := src.Read(buf)
if rerr != nil && rerr != io.EOF && rerr != context.Canceled {
p.logf(“httputil: ReverseProxy read error during body copy: %v”, rerr)
}
if nr > 0 {
nw, werr := dst.Write(buf[:nr])
if nw > 0 {
written += int64(nw)
}
if werr != nil {
return written, werr
}
if nr != nw {
return written, io.ErrShortWrite
}
}
if rerr != nil {
if rerr == io.EOF {
rerr = nil
}
return written, rerr
}
}
}

MITM 代理

代理服务器还可以使用 HTTPS 来处理数据。意思是让代理服务器直接与目标服务器建立 HTTPS 连接，同时在客户端与服务器之间建立另一个 HTTPS 连接。

但是我们之前说过，HTTPS 天然阻止了这种中间人攻击，而要突破这种封锁就需要让客户端能够完全信任代理服务器颁发的证书，因此这种代理服务器也被称为 MITM（Man-In-The-Middle）。MITM 就像一个中间人，能够看到所有流过它的 HTTP 和 HTTPS 流量。这种方式是一些代理软件（例如 Charles）能够嗅探到 HTTPS 数据的原因。

透明代理

客户端需要感知到代理服务器的存在。但是还有一类代理，客户端不用感知到代理服务器，只需要直接往目标服务器中发送消息，通过操作系统或路由器的路由设置强制将请求发送到代理服务器中。

举一个例子，在我的 Mac 电脑上（Windows 类似）就可以设置系统代理。这样我在浏览器上发送的所有 HTTP/HTTPS 请求都会被转发到代理服务器的地址 127.0.0.1:8888 中。

而在 Linux 服务器中，我们可以使用 iptables、IPVS 等技术强制将请求转发到代理服务器上。

反向代理

与正向代理不同的是，反向代理位于服务器的前方，客户端不能直接与服务器进行通信，需要通过反向代理。我们比较熟悉的 Nginx 一般就是用于实现反向代理的。

反向代理可以带来下面几个好处。

负载均衡: 对于大型分布式系统来说，反向代理可以提供一种负载均衡解决方案，在不同服务器之间平均分配传入流量，防止单个服务器过载。如果某台服务器完全无法运转，可以将流量转发到其他服务器。
防范攻击: 配备反向代理后，服务器无需暴露真实的 IP 地址，这就让攻击者难以进行针对性攻击（例如 DDoS 攻击），同时，反向代理通常还拥有更高的安全性和更多抵御网络攻击的资源。
缓存代理: 服务器可以缓存（或临时保存）服务器的响应数据（即使服务器在千里之外），大大加快请求的速度。
SSL 加密解密: 反向代理可以对客户端发出的 HTTPS 请求进行解密，对服务器发出的 HTTP 请求进行加密，从而节约目标服务器资源。

在 Go 语言中，实现反向代理非常简单，Go 语言标准库 httputil 中为我们提供了封装好的反向代理实现方式。下面是一个最简单的实现反向代理的例子。

func main() {
// 初始化反向代理服务
proxy, err := NewProxy()
if err != nil {
panic(err)
}
// 所有请求都由ProxyRequestHandler函数进行处理
http.HandleFunc(“/”, ProxyRequestHandler(proxy))
log.Fatal(http.ListenAndServe(“:8080”, nil))
}

func NewProxy() (*httputil.ReverseProxy, error) {
targetHost := “http://my-api-server.com”
url, err := url.Parse(targetHost)
if err != nil {
return nil, err
}
// 生成了一个反向代理服务器
// 参数是实际的后端服务器地址
// 如果后端有多个服务器，那么我们可以用一些策略来选择某一个合适的后端服务地址，从而实现负载均衡策略。
proxy := httputil.NewSingleHostReverseProxy(url)
return proxy, nil
}

// ProxyRequestHandler 使用代理处理HTTP请求
func ProxyRequestHandler(proxy *httputil.ReverseProxy) func(http.ResponseWriter, *http.Request) {
return func(w http.ResponseWriter, r *http.Request) {
proxy.ServeHTTP(w, r)
}
}

httputil.NewSingleHostReverseProxy 内部封装了数据转发等操作。当客户端访问我们的代理服务器时，请求会被转发到对应的目标服务器中。httputil 对于反向代理的实现其实并不复杂，和我们之前介绍的正向代理的逻辑类似，主要包含了修改客户端的请求，处理特殊请求头，将请求转发到目标服务器，将目标服务器的数据转发回客户端等操作。感兴趣的同学可以查阅 httputil 源码中的核心方法 ReverseProxy.ServeHTTP。

// net/http/httputil/reverseproxy.go
func (p *ReverseProxy) ServeHTTP(rw http.ResponseWriter, req *http.Request)

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

(https://img-blog.csdnimg.cn/img_convert/6c361282296f86381401c05e862fe4e9.png)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-1xVkpig1-1713668489119)]

2401_84138835

关注

29
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
Go分布式爬虫学习笔记(十五)_httputil reverseproxy read error during body copy

代理是指在客户端和服务器之间路由流量的服务，用于实现系统安全、负载均衡等功能。在爬虫项目中，代理服务器常常扮演着重要的角色，它能帮助我们突破服务器带来的限制和封锁，达到正常抓取数据的目的。
复制链接

扫一扫