介绍一个基于 Go 语言的爬虫框架 colly

     大家好,我是TheWeiJun。很高兴又和大家见面了,国庆假期马上就要结束了,在国庆假期里小编看了下colly框架,故这篇文章中将提到colly的使用及分析;欢迎各位读者多多阅读与交流!

特别声明:本公众号文章只作为学术研究,不作为其它不法用途;如有侵权请联系作者删除。

45003856b91c48132b051646ae8b7d0d.gif

这是「进击的Coder」的第 728 篇技术分享

作者:TheWeiJun

来源:逆向与爬虫的故事

 目录


一、colly框架简介

二、colly特性说明

三、爬虫架构对比

四、colly框架实战

五、colly总结说明


一、colly框架简介

10db70774126b0c6ff0d3c1fb8735a01.png

前言:colly 是 Go 实现的比较有名的一款爬虫框架,而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速,设计非常优雅,并且分布式的支持也非常简单,易于扩展。

github地址: github.com/gocolly/colly

colly官网地址:http://go-colly.org/

2ebfe488dd210bd223a32b681debc2b2.png

从上图中,我们可以看出colly在github社区有着超高的人气,到目前为止已经有17862个赞了。同Python爬虫框架Scrapy一样,属于不同语言中的超人气框架!


二、colly特性说明

       谈起爬虫框架,我觉得大家听过最多的就是requests库、Scrapy这类型的Python框架吧。如果再细分,Scrapy框架应该是功能最多也最好用的框架之一吧,优点这里就省略了,今天我们引出一个新的框架colly,先来介绍一下他的特性吧:

  • 干净的API

  • 快速(单核>1k请求/秒)

  • 管理每个域的请求延迟和最大并发性

  • 自动cookie和会话处理

  • 同步/异步并行抓取

  • 分布式抓取

  • 缓存

  • 非unicode响应的自动编码

  • robots. txt的支持

  • 抓取深度控制

  • 设置跨域开关

  • 谷歌应用程序引擎支持

总结:如果不是认真观察,我都感觉colly是scrapy的孪生兄弟呢,很多功能都极其的相似,接下来就让我们看看这个框架牛逼的地方吧,为啥会有这么多的star呢?


三、爬虫架构对比

了解爬虫的都知道一个爬虫请求的生命周期主要为以下五点:

  • 构建爬虫请求

  • 发送及调度请求

  • 获取文档或数据

  • 解析字段或清洗数据

  • 数据处理或持久化

结合上面的步骤,我们先来谈下scrapy架构,如下图所示:

d414bb56d9a7142871b7974aa214b704.png

如上图,downloader负责请求获取页面,spiders中写具体解析字段的逻辑,item PipeLine数据最后处理, 中间有一些中间件,可以定制化一些功能设置。比如,代理,请求频率等。

然后,我们谈下colly架构的特别,colly的逻辑更像是面向过程编程的, colly的逻辑就是按上面生命周期的顺序进行处理, 只是在不同阶段,加上回调函数进行过滤的时候进行处理。架构图如下所示:

731a243f3a42f83c7e9d5f21e9e9c0f2.jpeg


四、colly框架实战

go colly的网络爬虫还是很强大,下面我们通过代码来看一下这个功能的使用:

// Package main -----------------------------
// @author    : 逆向与爬虫的故事
// @time      : 2022/10/6 13:24
// -------------------------------------------
package main
import (
"fmt"
"github.com/gocolly/colly"
"github.com/gocolly/colly/debug"
"time"
)
func main() {
  mUrl := "http://www.ifeng.com/"
//colly的主体是Collector对象,管理网络通信和负责在作业运行时执行附加的回掉函数
c := colly.NewCollector(
// 开启DEBUG
    colly.Debugger(&debug.LogDebugger{}),
// 是否开启异步
    colly.Async(true),
    // 跨域设置
    colly.AllowedDomains("www.ifeng.com"),
// 允许重复抓取
    colly.AllowURLRevisit(),
    // url设置
    colly.URLFilters(
      regexp.MustCompile(".*"),
    ),
// 设置UA
    colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"),
  )
c.Limit(&colly.LimitRule{
Parallelism: 5, // 并发设置
Delay:       time.Second * 3, // 下载延时
RandomDelay: time.Second * 5, // 随机延时
  })
    
    // 代理、连接数、上下文机制、超时等配置
c.WithTransport(&http.Transport{
Proxy: http.ProxyFromEnvironment,
DialContext: (&net.Dialer{
Timeout:   30 * time.Second,
KeepAlive: 30 * time.Second,
    }).DialContext,
MaxIdleConns:          100,
IdleConnTimeout:       90 * time.Second,
TLSHandshakeTimeout:   10 * time.Second,
ExpectContinueTimeout: 1 * time.Second,
  })
//发送请求之前的执行函数
c.OnRequest(func(r *colly.Request) {
    fmt.Println("这里是发送之前执行的函数")
  })
//发送请求错误被回调
c.OnError(func(_ *colly.Response, err error) {
    fmt.Print(err)
  })
//响应请求之后被回调
c.OnResponse(func(r *colly.Response) {
    fmt.Println("Response body length:", len(r.Body))
  })
//response之后会调用该函数,分析页面数据
c.OnHTML("p a", func(e *colly.HTMLElement) {
    fmt.Println(e.Text)
  })
//在OnHTML之后被调用
c.OnScraped(func(r *colly.Response) {
    fmt.Println("Finished", r.Request.URL)
  })
//这里是执行访问url
c.Visit(mUrl)
}

运行结果如下:

e822fff497814c2c8e9adf86fe40ebbb.png

总结一下,回调函数的调用顺序如下:

  1. OnRequest在发起请求前被调用

  2. OnError请求过程中如果发生错误被调用

  3. OnResponse收到回复后被调用

  4. OnHTML在OnResponse之后被调用,如果收到的内容是HTML

  5. OnScraped在OnHTML之后被调用

通过实战,观察打印日志,让我相信Go的并发性是真的强👍🏻


五、colly框架总结

colly回调函数共有如下7种,表格如下:

5a9d2170e535abef6d6920827f9533a3.png


colly回调函数已经满足:

  • request事前处理回调

  • request请求错误回调

  • 收到响应头处理回调

  • 成功响应处理回调

  • HTML内容处理回调

  • 爬虫结束处理回调

总结:通过查看回调函数及内置函数,colly除了不具备json序列化方法,其他功能都已经具备。同scrapy相比,colly也缺少一些丰富的扩展统计中间件功能,但是colly框架的并发性是真的强,也支持分布式抓取。colly让我相信,爬虫除了使用python,用go也是一个不错的选择,我也相信colly社区的开发者会让这个架构越来越牛逼!同时,我也希望在以后的日子里,能为colly社区贡献自己的一分绵薄之力⛽️


8d4b6de08141713f2ec0468c424e32f1.png

关注原公众号获得更多精彩内容

fb5b27054ff0dcbc74ac3eca903ffd66.png

End

崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,‍同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!

内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍

4e9c1fd1fc2300a5572342643163143e.jpeg

扫码购买

db37f0324d1e6b43405312c11135a240.png

e36df31d88cc376093e049f296083f5a.png

点个在看你最好看

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值