Go分布式爬虫学习笔记(十五)_httputil reverseproxy read error during body copy(1)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 方向

    • 正向代理
    • 反向代理
  • 方式

    • HTTP 隧道代理
    • MITM 代理
    • 透明代理
  • 协议

    • HTTP 代理
    • HTTPS 代理
    • SOCKS 代理
    • TCP 代理

正向代理

正向代理会向一个客户端或一组客户端提供代理服务。
通常,这些客户端属于同一个内部网络。当客户端尝试访问外部服务器时,请求必须首先通过正向代理。

为什么需要这多余的中间层呢?

  • 监控

    • 请求与回复

    • 鉴权

    • 控制访问权限

    • 隐藏客户端实际地址

      • 隐藏了客户端的真实地址之后,正向代理可以绕过一些机构的网络限制,这样一些互联网用户就实现了匿名性。

Go实现代理

func main() {
  server := &http.Server{
    Addr: ":8888",
    Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
      handleHTTP(w, r)
    }),
  }
  log.Fatal(server.ListenAndServe())
}

func handleHTTP(w http.ResponseWriter, req *http.Request) {
   resp, err := http.DefaultTransport.RoundTrip(req)
   if err != nil {
      http.Error(w, err.Error(), http.StatusServiceUnavailable)
     return
   }
   defer resp.Body.Close()
   copyHeader(w.Header(), resp.Header)
   w.WriteHeader(resp.StatusCode)
   io.Copy(w, resp.Body)
}
func copyHeader(dst, src http.Header) {
  for k, vv := range src {
    for _, v := range vv {
      dst.Add(k, v)
    }
  }
}

在这个例子中:

  • 代理服务器接受来自客户端的 HTTP 请求

  • 通过 handleHTTP 函数对请求进行处理。

    • 当前代理服务器获取客户端的请求
    • 用自己的身份发送请求到服务器。
    • 代理服务器获取到服务器的回复后
    • 会再次利用 io.Copy 将回复发送回客户端。

代理服务器除了要在客户端与服务器之间搭建起一个管道,有时还需要处理一些特殊的 HTTP 请求头: hop-by-hop 请求头

hop-by-hop: 不是给目标服务器使用的,它是专门给中间的代理服务器使用的。例如在 Go httputil 标准库中,就包含了如下 hop-by-hop 请求头:

var hopHeaders = []string{
  "Connection",
  "Proxy-Connection",
  "Keep-Alive",
  "Proxy-Authenticate",
  "Proxy-Authorization",
  "Te",
  "Trailer", 
  "Transfer-Encoding",
  "Upgrade",
}

代理服务器需要根据情况对 hop-by-hop 请求头做一些特殊处理,并在发送给目标服务器之前删除 hop-by-hop 请求头。

HTTP 隧道代理

在 HTTP 隧道技术中,客户端会在第一次连接代理服务器时给代理服务器发送一个指令,通常是一个 HTTP 请求。这里我们可以将 HTTP 请求头中的 method 设置为 CONNECT。

CONNECT example.com:443 HTTP/1.1

  • 代理服务器收到该指令后,将与目标服务器建立 TCP 连接。
  • 连接建立后,代理服务器会将之后收到的请求通过 TCP 连接转发给目标服务器。

因此,只有初始连接请求是 HTTP, 之后,代理服务器将不再嗅探到任何数据,它只是完成一个转发的动作。现在如果我们去查看其他开源的代理库,就会明白为什么会对 CONNECT 方法进行单独的处理了,这是业内通用的一种标准。

func main() {
  server := &http.Server{
    Addr: ":9981",
    Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
      if r.Method == http.MethodConnect {
        handleTunneling(w, r)
      } else {
        handleHTTP(w, r)
      }
    }),
  }
  log.Fatal(server.ListenAndServe())
}

func handleTunneling(w http.ResponseWriter, r *http.Request) {
  dest_conn, err := net.DialTimeout("tcp", r.Host, 10*time.Second)
  if err != nil {
    http.Error(w, err.Error(), http.StatusServiceUnavailable)
    return
  }
  w.WriteHeader(http.StatusOK)
  hijacker, ok := w.(http.Hijacker)
  if !ok {
    http.Error(w, "Hijacking not supported", http.StatusInternalServerError)
    return
  }
  // 我们通过 hijacker.Hijack() 拿到了客户端与代理服务器之间的底层 TCP 连接
  // 当调用 hijacker.Hijack() 拿到底层连接之后,hijackLocked 函数会为变量 hijackedv 赋值为 true。
  // Go HTTP 标准库会在不同的阶段检测到该变量是否为 true,如果为 true 将放弃后续标准库的托管处理。
  client_conn, _, err := hijacker.Hijack()
  if err != nil {
    http.Error(w, err.Error(), http.StatusServiceUnavailable)
  }
  go transfer(dest_conn, client_conn)
  go transfer(client_conn, dest_conn)
}

func transfer(destination io.WriteCloser, source io.ReadCloser) {
  defer destination.Close()
  defer source.Close()
  // 通过 io.Copy 就简单地串联起了一个管道,实现了数据包在服务器与客户端之间的相互转发。
  // 在工业级代码中,我们一般会写一个 for 循环,控制每一次转发的数据包大小。
  io.Copy(destination, source)
}

这里,当探测到 HTTP 请求是 CONNECT 方法之后,handleTunneling 函数会进行特殊处理,建立与服务器的 TCP 连接。在之后,代理服务器会将数据包从服务器转发到客户端。

在 Go 标准库 httputil 中,有一段实现将 src 数据拷贝到了 dst 中的操作,你可以参考一下:


func (p *ReverseProxy) copyBuffer(dst io.Writer, src io.Reader, buf []byte) (int64, error) {
  if len(buf) == 0 {
    buf = make([]byte, 32*1024)
  }
  var written int64
  for {
    nr, rerr := src.Read(buf)
    if rerr != nil && rerr != io.EOF && rerr != context.Canceled {
      p.logf("httputil: ReverseProxy read error during body copy: %v", rerr)
    }
    if nr > 0 {
      nw, werr := dst.Write(buf[:nr])
      if nw > 0 {
        written += int64(nw)
      }
      if werr != nil {
        return written, werr
      }
      if nr != nw {
        return written, io.ErrShortWrite
      }
    }
    if rerr != nil {
      if rerr == io.EOF {
        rerr = nil
      }
      return written, rerr
    }
  }
}

MITM 代理

代理服务器还可以使用 HTTPS 来处理数据。意思是让代理服务器直接与目标服务器建立 HTTPS 连接,同时在客户端与服务器之间建立另一个 HTTPS 连接。

但是我们之前说过,HTTPS 天然阻止了这种中间人攻击,而要突破这种封锁就需要让客户端能够完全信任代理服务器颁发的证书,因此这种代理服务器也被称为 MITM(Man-In-The-Middle)。MITM 就像一个中间人,能够看到所有流过它的 HTTP 和 HTTPS 流量。这种方式是一些代理软件(例如 Charles)能够嗅探到 HTTPS 数据的原因。

透明代理

客户端需要感知到代理服务器的存在。但是还有一类代理,客户端不用感知到代理服务器,只需要直接往目标服务器中发送消息,通过操作系统或路由器的路由设置强制将请求发送到代理服务器中。

举一个例子,在我的 Mac 电脑上(Windows 类似)就可以设置系统代理。这样我在浏览器上发送的所有 HTTP/HTTPS 请求都会被转发到代理服务器的地址 127.0.0.1:8888 中。

而在 Linux 服务器中,我们可以使用 iptables、IPVS 等技术强制将请求转发到代理服务器上。

反向代理

与正向代理不同的是,反向代理位于服务器的前方,客户端不能直接与服务器进行通信,需要通过反向代理。我们比较熟悉的 Nginx 一般就是用于实现反向代理的。

image

反向代理可以带来下面几个好处。

  • 负载均衡: 对于大型分布式系统来说,反向代理可以提供一种负载均衡解决方案,在不同服务器之间平均分配传入流量,防止单个服务器过载。如果某台服务器完全无法运转,可以将流量转发到其他服务器。
  • 防范攻击: 配备反向代理后,服务器无需暴露真实的 IP 地址,这就让攻击者难以进行针对性攻击(例如 DDoS 攻击),同时,反向代理通常还拥有更高的安全性和更多抵御网络攻击的资源。
  • 缓存代理: 服务器可以缓存(或临时保存)服务器的响应数据(即使服务器在千里之外),大大加快请求的速度。
  • SSL 加密解密: 反向代理可以对客户端发出的 HTTPS 请求进行解密,对服务器发出的 HTTP 请求进行加密,从而节约目标服务器资源。

在 Go 语言中,实现反向代理非常简单,Go 语言标准库 httputil 中为我们提供了封装好的反向代理实现方式。下面是一个最简单的实现反向代理的例子。

func main() {
  // 初始化反向代理服务
  proxy, err := NewProxy()
  if err != nil {
    panic(err)
  }
  // 所有请求都由ProxyRequestHandler函数进行处理
  http.HandleFunc("/", ProxyRequestHandler(proxy))
  log.Fatal(http.ListenAndServe(":8080", nil))
}

func NewProxy() (*httputil.ReverseProxy, error) {
  targetHost := "http://my-api-server.com"
  url, err := url.Parse(targetHost)
  if err != nil {
    return nil, err
  }
  // 生成了一个反向代理服务器
  // 参数是实际的后端服务器地址
  // 如果后端有多个服务器,那么我们可以用一些策略来选择某一个合适的后端服务地址,从而实现负载均衡策略。
  proxy := httputil.NewSingleHostReverseProxy(url)
  return proxy, nil
}

// ProxyRequestHandler 使用代理处理HTTP请求
func ProxyRequestHandler(proxy *httputil.ReverseProxy) func(http.ResponseWriter, *http.Request) {
  return func(w http.ResponseWriter, r *http.Request) {
    proxy.ServeHTTP(w, r)
  }
}

httputil.NewSingleHostReverseProxy 内部封装了数据转发等操作。当客户端访问我们的代理服务器时,请求会被转发到对应的目标服务器中。httputil 对于反向代理的实现其实并不复杂,和我们之前介绍的正向代理的逻辑类似,主要包含了修改客户端的请求,处理特殊请求头,将请求转发到目标服务器,将目标服务器的数据转发回客户端等操作。感兴趣的同学可以查阅 httputil 源码中的核心方法 ReverseProxy.ServeHTTP。

// net/http/httputil/reverseproxy.go
func (p *ReverseProxy) ServeHTTP(rw http.ResponseWriter, req *http.Request)

如何在实际项目中实现代理?

在爬虫项目中使用代理时,我们可能使用了自己搭建的代理服务器,也可能使用了外部付费或免费的代理池。在这里,假设我们已经拥有了众多代理服务器地址,客户端应该如何实现对代理的访问呢?

这里面其实涉及到两个问题:

  • 如何访问代理服务器。
  • 选择代理的策略,在众多代理服务器中,怎样选择一个最合适的代理地址?

如何访问代理服务器?

Go HTTP 标准库为我们封装了代理访问的机制。在 Transport 结构体中,有一个 Proxy 函数用于返回当前应该使用的代理地址。

type Transport struct {
  Proxy func(\*Request) (\*url.URL, error)
}

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

uest) (*url.URL, error)
}



[外链图片转存中...(img-YIRKto8E-1715501517132)]
[外链图片转存中...(img-90tm74hQ-1715501517132)]

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友,可以添加戳这里获取](https://bbs.csdn.net/topics/618658159)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值