Colly官方文档入门教程

最新推荐文章于 2024-10-18 10:50:21 发布

诗雅颂

最新推荐文章于 2024-10-18 10:50:21 发布

阅读量1.3k

点赞数 20

文章标签： colly go 爬虫网络爬虫

本文链接：https://blog.csdn.net/andrew_wf/article/details/141716882

版权

Colly

Colly 是用于构建 Web 爬虫的 Golang 框架。使用 Colly , 你可以构建各种复杂的 Web 抓取工具，从简单的抓取工具到处理数百万个网页的复杂的异步网站抓取工具。 Colly 提供了一个 API, 用于执行网络请求和处理接收到的内容（例如，与 HTML 文档的 DOM 树进行交互）。

特点

易于使用：Colly提供了简洁的API来发起HTTP请求，并且可以方便地处理响应。
灵活的中间件支持：允许用户自定义中间件来修改请求或响应，例如添加User-Agent、设置超时时间等。
自动处理重定向：Colly会自动跟踪重定向链接，这在爬取过程中非常有用。
强大的HTML解析功能：内置了对HTML文档的解析功能，可以通过XPath或CSS选择器来提取页面上的信息。
并发支持：Colly支持并发请求，可以设置最大并发数以控制爬虫的速度，避免给目标网站带来过大压力。
错误处理：提供了错误处理机制，可以帮助开发者更好地管理爬虫运行过程中可能出现的问题。

框架主要组件

Collector
Request 和 Response
Middleware
OnXXX 事件处理器
存储和缓存
并发控制

详细说明

Collector
定义: Collector 是 Colly 的核心组件，负责管理和调度所有的请求和响应。
初始化: 通过 colly.NewCollector() 创建一个新的 Collector 实例。
属性: 包括请求队列、中间件列表、事件处理器等。
方法: 提供了多种方法来配置和控制爬虫行为，如 Visit, OnHTML, OnRequest, OnError 等。

Request 和 Response

Request: 表示一个 HTTP 请求，包含 URL、方法、头部信息等。
Response: 表示一个 HTTP 响应，包含状态码、响应体、头部信息等。
交互: Collector 使用 Request 发起请求，并接收 Response 进行处理。

Middleware

定义: 中间件用于在请求和响应之间进行额外的处理。
类型: 包括请求中间件 (BeforeRequest, AfterRequest) 和响应中间件 (BeforeResponse, AfterResponse)。
注册: 可以通过 Collector 的 Use 方法注册中间件。
示例:

c.Use(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0")
})

OnXXX 事件处理器

OnRequest: 在请求发送前触发。
OnResponse: 在接收到响应后触发。
OnHTML: 在解析 HTML 时触发。
OnError: 在发生错误时触发。
示例:

  c.OnRequest(func(r *colly.Request) {
      fmt.Println("Visiting", r.URL)
  })

  c.OnHTML("a[href]", func(e *colly.HTMLElement) {
      fmt.Println("Link found:", e.Attr("href"))
  })

存储和缓存

存储: 支持将爬取的数据保存到文件、数据库等。
缓存: 可以使用内存缓存或外部缓存系统（如 Redis）来减少重复请求。
示例:

  c.Storage = &colly.CacheStorage{
      CacheDir: "./cache",
  }

并发控制

并发: 支持并发请求，提高爬虫效率。
限流: 可以设置最大并发数，避免给服务器造成过大压力。
示例:

  c.Limit(&colly.LimitRule{
      DomainGlob:  "*",
      Parallelism: 10,
  })

安装

通过go get命令安装Colly:

go get -u github.com/gocolly/colly/v2

基本用法示例

import (
    "github.com/gocolly/colly/v2"
)

func main() {
    // 初始化Collector
    c := colly.NewCollector()

    // 访问每个页面时执行
    c.OnHTML("some selector", func(e *colly.HTMLElement) {
        fmt.Println("Link found:", e.Text)
    })

    // 在访问每个页面之前执行
    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    // 开始访问
    c.Visit("http://www.example.com")
}