colly 使用多个收集器 ##8

最新推荐文章于 2024-03-25 10:32:02 发布

weixin_30779691

最新推荐文章于 2024-03-25 10:32:02 发布

阅读量243

点赞数

原文链接：http://www.cnblogs.com/liujie-php/p/11571117.html

版权

使用多个收集器

如果任务足够复杂或具有不同类型的子任务，建议为一个抓取工作使用多个收集器。coursera course scraper就是一个很好的例子，它使用了两个收集器——一个解析列表视图并处理分页，另一个收集课程的详细信息。

注意：使用收集器。ID在调试中区分不同的收集器

克隆收集器

如果收集器具有类似的配置，可以使用收集器的Clone()方法。Clone()复制具有相同配置但没有附加回调的收集器。

c := colly.NewCollector(
	colly.UserAgent("myUserAgent"),
	colly.AllowedDomains("foo.com", "bar.com"),
)
// Custom User-Agent and allowed domains are cloned to c2
c2 := c.Clone()

在收集器之间传递自定义数据

使用collector的Request()函数可以与其他收集器共享上下文。

共享上下文的例子:

c.OnResponse(func(r *colly.Response) {
	r.Ctx.Put(r.Headers.Get("Custom-Header"))
	c2.Request("GET", "https://foo.com/", nil, r.Ctx, nil)
})

转载于:https://www.cnblogs.com/liujie-php/p/11571117.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30779691

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Colly 爬虫学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据

ysf465639310的专栏

12-24

1052

Colly 学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据 Colly 主体类是 Collector类，Collector管理网络通信，当Collector的任务运行时也负责执行注册的回调函数。初始化过程如下： c:=colly.NewCollector() 你可以注册不同的回调函数，通过Collector来控制任务或检索信息。 c.OnRequest(func(r *colly.Request) { //在Request请求之前调用 fmt.Println("Visit

Go 优雅的爬虫框架 - Colly

最新发布

qq_39335595的博客

05-30

2132

Colly 是一款用 Go 语言编写的优雅网络爬虫框架，速度快、灵活且易于使用配置可以写在里面，也可以写在外面。

参与评论您还未登录，请先登录后发表或查看评论

有名的爬虫框架 colly 的特性及2个详细采集案例

数据知道的博客

03-25

8231

前言：colly 是 Go 实现的比较有名的一款爬虫框架，而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速，设计非常优雅，并且分布式的支持也非常简单，易于扩展。框架简介：基于colly框架及net/http进行封装，实现的一款可配置分布式爬虫架构。使用者只需要配置解析、并发数、入库topic、请求方式、请求url等参数即可，其他代码类似于scrapy，不需要单独编写。github地址:colly特性干净的API快速(单核>1k请求/秒)

golang快速入门--爬虫--基于colly框架的爬虫案例

xzpdxz的博客

06-20

1143

colly爬虫框架 colly是用go实现的网络爬虫框架这个框架与python的scrapy框架很像数据清洗时，可以像jquery中一样用选择器来选择web元素同时，清洗数据也可以使用xpath风格来定位元素安装依赖 [ ~ ]# go get -u github.com/gocolly/colly/ colly中的Collector对象 collector := colly.NewCollector() // 实例化一个采集对象 colly中的回调函数 OnRequest 在发起请求前被

Go 爬虫之 colly 从入门到不放弃指南

Seekload

04-01

2956

最近发现知乎上感兴趣的问题越来越少，于是准备聚合下其他平台技术问答，比如 segmentfault、stackoverflow 等。要完成这个工作，肯定是离不开爬虫的。我就顺便抽时间研究了 Go 的一款爬虫框架 colly。概要介绍colly 是 Go 实现的比较有名的一款爬虫框架，而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速，设...

Colly源码解析——框架

方亮的专栏

11-27

2941

Colly是一个使用golang实现的数据抓取框架，我们可以使用它快速搭建类似网络爬虫这样的应用。本文我们将剖析其源码，以探析其中奥秘。（转载请指明出于breaksoftware的csdn博客） Collector是Colly的核心结构体，其中包含了用户对框架行为的定义。一般情况下，我们可以使用NewCollector方法构建一个它的指针 // NewColl...

goquery 查找html标签,Go语言爬虫框架之Colly和Goquery

weixin_36448083的博客

06-15

986

写在前面Go语言爬虫框架之Colly和GoqueryPython框架框架比较有BeautifulSoup或Scrapy，基于Go的爬虫框架是比较强健的，尤其Colly和Goquery是比较强大的工具，其灵活性和表达性都比较优秀。网络爬虫网络爬虫是什么?从本质上讲,网络爬虫的工作原理通过检查web页面的HTML内容和执行某种类型的行动基于内容。通常,抓取暴露的链接,爬虫按照队列的去爬取。我们也可以...

10分钟go crawler colly从入门到精通

期待幸福

04-01

1089

Introduction 本文对colly如何使用，整个代码架构设计，以及一些使用实例的收集。 Colly是Go语言开发的Crawler Framework，并不是一个完整的产品，Colly提供了类似于Python的同类产品（BeautifulSoup 或 Scrapy）相似的表现力和灵活性。 Colly这个名称源自 Collector 的简写，而Collector 也是 Colly的核心。 Colly Official Docs，内容不是很多，最新的消息也很就远了，仅仅是活跃在Github Conce

colly源码学习

轩脉刃的刀光剑影

02-27

323

colly源码学习 2019-02-27 09:52 by 轩脉刃, ... 阅读, ... 评论, 收藏, 编辑 colly源码学习 colly是一个golang写的网络爬虫。它使用起来非常顺手。看了一下它的源码，质量也是非常好的。本文就阅读一下它的源码。使用示例 func main() { c := colly.New...

跨站点爬取和数据聚合：从多个网站收集并整合数据

跨站点爬取和数据聚合可以帮助我们从多个网站中收集数据，并将其整合为一个统一的数据集。这对于进行数据分析、商业智能、市场调研等工作具有重要意义。通过跨站点爬取和数据聚合，我们可以获取更全面、更多样化的...

go爬虫框架go-colly官方从入门到实践之官方文档翻译

12-21

go-colly如何安装 Colly 只依赖于Go 语言，Go语言安装可以通过安装指南进行安装Colly，windows在cmd终端/linux在shell 中输入如下命令然后回车安装Colly go get -u github.com/gocolly/colly/... 入门入门开始使用Colly之前确保你已经安装最新版本，更详细内容见安装指南让我们从一些简单的例子开始首先你需要导入Colly到你的代码中 import "github.com/gocolly/colly" 收集器 Colly 的主要实例是收集器对象，当Colly 收集器任务运行

colly简单爬取GXU-Oj的公告栏信息

qq_52928324的博客

11-16

424

一个简单的爬虫小程序

Colly源码解析——结合例子分析底层实现

方亮的专栏

11-28

2946

通过《Colly源码解析——框架》分析，我们可以知道Colly执行的主要流程。本文将结合http://go-colly.org上的例子分析一些高级设置的底层实现。（转载请指明出于breaksoftware的csdn博客）递归深度以下例子截取于Basic c := colly.NewCollector( // Visit only domains: ...

golang爬虫框架colly简单介绍

phplife的电子商务网上商城专栏

05-04

2635

colly一款快速优雅的golang爬虫框架，简单易用，功能完备。

Go 每日一库之 colly

darjun的博客

07-02

1458

简介colly是用 Go 语言编写的功能强大的爬虫框架。它提供简洁的 API，拥有强劲的性能，可以自动处理 cookie&session，还有提供灵活的扩展机制。首先，我们介绍co...

Go爬虫colly官方示例十九【request_context】- 设置请求上下文

BigManing的博客

01-13

900

文章目录示例介绍示例代码转载请标明出处： http://blog.csdn.net/qq_27818541/article/details/112545530 本文出自:【BigManing的博客】示例介绍通过r.Ctx.Put("url", r.URL.String()) 添加数据到上下文示例代码

Go语言爬虫框架之Colly和Goquery

热门推荐

Hi,你好

12-17

1万+

写在前面此文翻译自点击阅读原文，建议英语能力好的同学阅读原文进行学习。点击阅读Colly文档，点击阅读Goquery文档 Go语言爬虫框架之Colly和Goquery Python框架框架比较有BeautifulSoup或Scrapy，基于Go的爬虫框架是比较强健的，尤其Colly和Goquery是比较强大的工具，其灵活性和表达性都比较优秀。网络爬虫网络爬虫是什么?从本质上讲,网络爬虫的...

colly 配置 ##4

weixin_30779691的博客

09-23

338

配置 Colly是一个高度可定制的抓取框架。它有合理的默认值，并提供了大量的选项来更改它们。 收集器的配置 收集器属性的完整列表可以在这里找到。初始化收集器的推荐方法是使用 colly.NewCollector(options...)。创建一个具有默认设置的收集器: c1 := colly.NewCollector() 创建另一个收集器，并更改用户代理和u...

gocolly使用指南

07-12

感谢您的提问！以下是使用gocolly的简单指南： 1. 安装gocolly：您可以使用以下命令在Go中安装gocolly： ```shell go get -u github.com/gocolly/colly/v2 ``` 2. 导入gocolly包：在您的Go程序中，您需要导入gocolly包： ```go import "github.com/gocolly/colly/v2" ``` 3. 创建一个新的Collector：使用以下代码创建一个新的Collector对象： ```go c := colly.NewCollector() ``` 4. 设置回调函数：您可以为Collector设置回调函数，以便在访问URL时执行特定操作。例如，您可以使用OnHTML方法来解析HTML标签： ```go c.OnHTML("a[href]", func(e *colly.HTMLElement) { link := e.Attr("href") fmt.Println(link) }) ``` 5. 访问URL：使用Collector的Visit方法来访问URL，并触发回调函数： ```go c.Visit("http://example.com") ``` 6. 运行程序：运行您的Go程序以开始爬取网页数据： ```shell go run yourprogram.go ``` 这只是gocolly的一些基本用法，您还可以使用其他功能，如处理表单、设置请求头等。您可以查看gocolly的文档以获取更多详细信息和示例代码：https://pkg.go.dev/github.com/gocolly/colly/v2 希望这个指南对您有所帮助！如有任何其他问题，请随时提问。