Go分布式爬虫学习笔记(十五)_httputil reverseproxy read error during body copy

最新推荐文章于 2024-06-03 10:32:30 发布

2401_84557547

最新推荐文章于 2024-06-03 10:32:30 发布

阅读量806

点赞数 20

分类专栏：程序员文章标签： golang 分布式爬虫

本文链接：https://blog.csdn.net/2401_84557547/article/details/138392792

版权

程序员专栏收录该内容

144 篇文章 1 订阅

订阅专栏

代理服务器需要根据情况对 hop-by-hop 请求头做一些特殊处理，并在发送给目标服务器之前删除 hop-by-hop 请求头。

HTTP 隧道代理

在 HTTP 隧道技术中，客户端会在第一次连接代理服务器时给代理服务器发送一个指令，通常是一个 HTTP 请求。这里我们可以将 HTTP 请求头中的 method 设置为 CONNECT。

CONNECT example.com:443 HTTP/1.1

代理服务器收到该指令后，将与目标服务器建立 TCP 连接。
连接建立后，代理服务器会将之后收到的请求通过 TCP 连接转发给目标服务器。

因此，只有初始连接请求是 HTTP，之后，代理服务器将不再嗅探到任何数据，它只是完成一个转发的动作。现在如果我们去查看其他开源的代理库，就会明白为什么会对 CONNECT 方法进行单独的处理了，这是业内通用的一种标准。

func main() {
  server := &http.Server{
    Addr: ":9981",
    Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
      if r.Method == http.MethodConnect {
        handleTunneling(w, r)
      } else {
        handleHTTP(w, r)
      }
    }),
  }
  log.Fatal(server.ListenAndServe())
}

func handleTunneling(w http.ResponseWriter, r *http.Request) {
  dest_conn, err := net.DialTimeout("tcp", r.Host, 10*time.Second)
  if err != nil {
    http.Error(w, err.Error(), http.StatusServiceUnavailable)
    return
  }
  w.WriteHeader(http.StatusOK)
  hijacker, ok := w.(http.Hijacker)
  if !ok {
    http.Error(w, "Hijacking not supported", http.StatusInternalServerError)
    return
  }
  // 我们通过 hijacker.Hijack() 拿到了客户端与代理服务器之间的底层 TCP 连接
  // 当调用 hijacker.Hijack() 拿到底层连接之后，hijackLocked 函数会为变量 hijackedv 赋值为 true。
  // Go HTTP 标准库会在不同的阶段检测到该变量是否为 true，如果为 true 将放弃后续标准库的托管处理。
  client_conn, _, err := hijacker.Hijack()
  if err != nil {
    http.Error(w, err.Error(), http.StatusServiceUnavailable)
  }
  go transfer(dest_conn, client_conn)
  go transfer(client_conn, dest_conn)
}

func transfer(destination io.WriteCloser, source io.ReadCloser) {
  defer destination.Close()
  defer source.Close()
  // 通过 io.Copy 就简单地串联起了一个管道，实现了数据包在服务器与客户端之间的相互转发。
  // 在工业级代码中，我们一般会写一个 for 循环，控制每一次转发的数据包大小。
  io.Copy(destination, source)
}

这里，当探测到 HTTP 请求是 CONNECT 方法之后，handleTunneling 函数会进行特殊处理，建立与服务器的 TCP 连接。在之后，代理服务器会将数据包从服务器转发到客户端。

‍

在 Go 标准库 httputil 中，有一段实现将 src 数据拷贝到了 dst 中的操作，你可以参考一下：


func (p *ReverseProxy) copyBuffer(dst io.Writer, src io.Reader, buf []byte) (int64, error) {
  if len(buf) == 0 {
    buf = make([]byte, 32*1024)
  }
  var written int64
  for {
    nr, rerr := src.Read(buf)
    if rerr != nil && rerr != io.EOF && rerr != context.Canceled {
      p.logf("httputil: ReverseProxy read error during body copy: %v", rerr)
    }
    if nr > 0 {
      nw, werr := dst.Write(buf[:nr])
      if nw > 0 {
        written += int64(nw)
      }
      if werr != nil {
        return written, werr
      }
      if nr != nw {
        return written, io.ErrShortWrite
      }
    }
    if rerr != nil {
      if rerr == io.EOF {
        rerr = nil
      }
      return written, rerr
    }
  }
}

MITM 代理

代理服务器还可以使用 HTTPS 来处理数据。意思是让代理服务器直接与目标服务器建立 HTTPS 连接，同时在客户端与服务器之间建立另一个 HTTPS 连接。

但是我们之前说过，HTTPS 天然阻止了这种中间人攻击，而要突破这种封锁就需要让客户端能够完全信任代理服务器颁发的证书，因此这种代理服务器也被称为 MITM（Man-In-The-Middle）。MITM 就像一个中间人，能够看到所有流过它的 HTTP 和 HTTPS 流量。这种方式是一些代理软件（例如 Charles）能够嗅探到 HTTPS 数据的原因。

透明代理

客户端需要感知到代理服务器的存在。但是还有一类代理，客户端不用感知到代理服务器，只需要直接往目标服务器中发送消息，通过操作系统或路由器的路由设置强制将请求发送到代理服务器中。

举一个例子，在我的 Mac 电脑上（Windows 类似）就可以设置系统代理。这样我在浏览器上发送的所有 HTTP/HTTPS 请求都会被转发到代理服务器的地址 127.0.0.1:8888 中。

而在 Linux 服务器中，我们可以使用 iptables、IPVS 等技术强制将请求转发到代理服务器上。

反向代理

与正向代理不同的是，反向代理位于服务器的前方，客户端不能直接与服务器进行通信，需要通过反向代理。我们比较熟悉的 Nginx 一般就是用于实现反向代理的。

反向代理可以带来下面几个好处。

负载均衡: 对于大型分布式系统来说，反向代理可以提供一种负载均衡解决方案，在不同服务器之间平均分配传入流量，防止单个服务器过载。如果某台服务器完全无法运转，可以将流量转发到其他服务器。
防范攻击: 配备反向代理后，服务器无需暴露真实的 IP 地址，这就让攻击者难以进行针对性攻击（例如 DDoS 攻击），同时，反向代理通常还拥有更高的安全性和更多抵御网络攻击的资源。
缓存代理: 服务器可以缓存（或临时保存）服务器的响应数据（即使服务器在千里之外），大大加快请求的速度。
SSL 加密解密: 反向代理可以对客户端发出的 HTTPS 请求进行解密，对服务器发出的 HTTP 请求进行加密，从而节约目标服务器资源。

在 Go 语言中，实现反向代理非常简单，Go 语言标准库 httputil 中为我们提供了封装好的反向代理实现方式。下面是一个最简单的实现反向代理的例子。

func main() {
  // 初始化反向代理服务
  proxy, err := NewProxy()
  if err != nil {
    panic(err)
  }
  // 所有请求都由ProxyRequestHandler函数进行处理
  http.HandleFunc("/", ProxyRequestHandler(proxy))
  log.Fatal(http.ListenAndServe(":8080", nil))
}

func NewProxy() (*httputil.ReverseProxy, error) {
  targetHost := "http://my-api-server.com"
  url, err := url.Parse(targetHost)
  if err != nil {
    return nil, err
  }
  // 生成了一个反向代理服务器
  // 参数是实际的后端服务器地址
  // 如果后端有多个服务器，那么我们可以用一些策略来选择某一个合适的后端服务地址，从而实现负载均衡策略。
  proxy := httputil.NewSingleHostReverseProxy(url)
  return proxy, nil
}

// ProxyRequestHandler 使用代理处理HTTP请求
func ProxyRequestHandler(proxy *httputil.ReverseProxy) func(http.ResponseWriter, *http.Request) {
  return func(w http.ResponseWriter, r *http.Request) {
    proxy.ServeHTTP(w, r)
  }
}

httputil.NewSingleHostReverseProxy 内部封装了数据转发等操作。当客户端访问我们的代理服务器时，请求会被转发到对应的目标服务器中。httputil 对于反向代理的实现其实并不复杂，和我们之前介绍的正向代理的逻辑类似，主要包含了修改客户端的请求，处理特殊请求头，将请求转发到目标服务器，将目标服务器的数据转发回客户端等操作。感兴趣的同学可以查阅 httputil 源码中的核心方法 ReverseProxy.ServeHTTP。

// net/http/httputil/reverseproxy.go
func (p *ReverseProxy) ServeHTTP(rw http.ResponseWriter, req *http.Request)

如何在实际项目中实现代理？

在爬虫项目中使用代理时，我们可能使用了自己搭建的代理服务器，也可能使用了外部付费或免费的代理池。在这里，假设我们已经拥有了众多代理服务器地址，客户端应该如何实现对代理的访问呢？

这里面其实涉及到两个问题:

如何访问代理服务器。
选择代理的策略，在众多代理服务器中，怎样选择一个最合适的代理地址？

如何访问代理服务器？

Go HTTP 标准库为我们封装了代理访问的机制。在 Transport 结构体中，有一个 Proxy 函数用于返回当前应该使用的代理地址。

type Transport struct {
  Proxy func(\*Request) (\*url.URL, error)
}

当客户端准备与服务器创建连接时，会调用该 Proxy 函数获取 proxyURL，并通过 proxyURL 得到代理服务器的 IP 与端口，这就确保了客户端首先与代理服务器而不是与目标服务器建立连接。

func (t \*Transport) connectMethodForRequest(treq \*transportRequest) (cm connectMethod, err error) {
  cm.targetScheme = treq.URL.Scheme
  cm.targetAddr = canonicalAddr(treq.URL)
    // 获取代理地址
  if t.Proxy != nil {
    cm.proxyURL, err = t.Proxy(treq.Request)
  }
  cm.onlyH1 = treq.requiresHTTP1()
  return cm, err
}

func (t \*Transport) dialConn(ctx context.Context, cm connectMethod) (pconn \*persistConn, err error) {
    ...
    conn, err := t.dial(ctx, "tcp", cm.addr())
}

func (cm \*connectMethod) addr() string {
    // 如果代理地址不为空，访问代理地址
  if cm.proxyURL != nil {
    return canonicalAddr(cm.proxyURL)
  }
  return cm.targetAddr
}

怎么选择代理地址？

这个代理地址的策略类似于调度策略，调度策略有很多，

轮询调度
加权轮询调度
一致性哈希算法
…

我们可以根据实际情况进行选择。

轮询调度（RR，Round-robin）是最简单的调度策略，轮询调度的意思是让每一个代理服务器都能够按顺序获得相同的负载。
下面让我们在项目中用轮询调度来实现对代理服务器的访问。我们新建一个文件夹 proxy，负责专门处理代理相关的操作。然后新建一个函数 RoundRobinProxySwitcher 用于返回代理函数，稍后将代理函数注入到 http.Transport 中。代码如下：

// proxy.go
type ProxyFunc func(\*http.Request) (\*url.URL, error)

func RoundRobinProxySwitcher(ProxyURLs ...string) (ProxyFunc, error) {
  if len(ProxyURLs) < 1 {
    return nil, errors.New("Proxy URL list is empty")
  }
  urls := make([]\*url.URL, len(ProxyURLs))
  for i, u := range ProxyURLs {
    parsedU, err := url.Parse(u)
    if err != nil {
      return nil, err
    }
    urls[i] = parsedU
  }
  return (&roundRobinSwitcher{urls, 0}).GetProxy, nil
}

type roundRobinSwitcher struct {
  proxyURLs []\*url.URL
  index     uint32
}
// 取余算法实现轮询调度
func (r \*roundRobinSwitcher) GetProxy(pr \*http.Request) (\*url.URL, error) {
  index := atomic.AddUint32(&r.index, 1) - 1
  u := r.proxyURLs[index%uint32(len(r.proxyURLs))]
  return u, nil
}

RoundRobinProxySwitcher 函数会接收代理服务器地址列表，将其字符串地址解析为 url.URL，并放入到 roundRobinSwitcher 结构中，该结构中还包含了一个自增的序号 index。
RoundRobinProxySwitcher 实际返回的代理函数是 GetProxy，这里使用了 Go 语言中闭包的技巧。每一次调用 GetProxy 函数，atomic.AddUint32 会将 index 加 1，并通过取余操作实现对代理地址的轮询。
接下来让我们使用这一策略，在模拟浏览器访问的结构体 BrowserFetch 中添加代理函数。

type BrowserFetch struct {
  Timeout time.Duration
  Proxy   proxy.ProxyFunc
}

更新 http.Client 变量中的 Transport 结构中的 Proxy 函数，将其替换为我们自定义的代理函数。

func (b BrowserFetch) Get(url string) ([]byte, error) {

  client := &http.Client{
    Timeout: b.Timeout,
  }
  if b.Proxy != nil {
    transport := http.DefaultTransport.(\*http.Transport)
    transport.Proxy = b.Proxy
    client.Transport = transport
  }
  ...
文末有福利领取哦~
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

👉**一、Python所有方向的学习路线**

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。![img](https://img-blog.csdnimg.cn/c67c0f87cf9343879a1278dfb067f802.png)

👉**二、Python必备开发工具**

![img](https://img-blog.csdnimg.cn/757ca3f717df4825b7d90a11cad93bc7.png)  
👉**三、Python视频合集**

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。  
![img](https://img-blog.csdnimg.cn/31066dd7f1d245159f21623d9efafa68.png)

👉 **四、实战案例**

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。**（文末领读者福利）**  
![img](https://img-blog.csdnimg.cn/e78afb3dcb8e4da3bae5b6ffb9c07ec7.png)

👉**五、Python练习题**

检查学习结果。  
![img](https://img-blog.csdnimg.cn/280da06969e54cf180f4904270636b8e.png)

👉**六、面试资料**

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。  
![img](https://img-blog.csdnimg.cn/a9d7c35e6919437a988883d84dcc5e58.png)

![img](https://img-blog.csdnimg.cn/5db8141418d544d3a8e9da4805b1a3f9.png)

👉因篇幅有限，仅展示部分资料，这份完整版的Python全套学习资料已经上传




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84557547

关注

20
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Go分布式爬虫学习笔记(十五)_httputil reverseproxy read error during body copy

代理服务器需要根据情况对 hop-by-hop 请求头做一些特殊处理，并在发送给目标服务器之前删除 hop-by-hop 请求头。
复制链接

扫一扫