go爬虫框架-colly实战(一)

原文连接:Hzy 博客

1.吐槽

这几天准备用go写爬虫来着,之前一直都是用python,python写协程,我这菜鸡也得又蛋疼,刚好又学了go,就想体验一把用go写爬虫的快感来着。

之前github上照着别人的思路,写了一个简单的并发爬虫框架,对go的并发,倒是学到了一点点,无意间发现了colly,对比下别人的,在看自己写的,唉…

2.colly简单介绍使用

github: https://github.com/gocolly/colly

官网: http://go-colly.org/

2.1 colly介绍

colly是一个爬虫框架,通过他,我们能快的实现一个并发爬虫,同简单易懂,方便扩展。

colly主要的东西就是Collector,通过Collector来收集访问的数据,并进行存储。(面向过程)

2.1 colly一个页面的抓取时的过程中的回调

  • 收集器请求前: onRequest()
  • 收集器抓取失败:onError()
  • 收集器响应后:onResponse()
  • 收集器收到HTML:onHTML()
  • 收集器收到XML: onXML()
  • 收集器抓取完后最后执行的回调:onScraped()
通过浙这些回调,我们就能很快写出一个爬虫,同时官网上也会有很多例子,供我们参考学习,实在不行看看源码。

2.2 colly中Collector的配置

  • 具体配置信息可以在官网中查看到,这里就随便说几个。
  • 爬虫域名抓取限制,最大深度限制,是否爬取重复网站,避免死循环。
  • 设置异步,并发数量,设置随机延迟时间等
  • http中是否保持长连接,限制连接数量等。
  • 同时还支持分布式。
  • 通过扩展,我们还能设置随机user-agent,reffer。

2.3 colly中的存储

3.结尾

明天来写写用这个框架来爬取leetCode上的题目。

Creeper 是个基于简单脚本( Creeper Script ,扩展名 .crs )的下代开源爬虫框架。需要配合门正经的编程语言(只开发了 Go 版本)来使用,先在 Creeper Script 内定义爬取规则,然后用 Go 代码来读取规则,再爬取资源。使用场景般会用在需要同时采集大量不同网站,或者开发聚合阅读器时。(以后可能会增加 cli 和数据库访问支持)简单的用例:假如我想要爬取 HackerNews ,需要写出这样子的脚本,其实看起来有些类似 yaml 配合 jquery 的样子,但是其实差别挺大的。page(@page=1) = "https://news.ycombinator.com/news?p={@page}" news[]: page -> $("tr.athing")     title: $(".title a.storylink").text     site: $(".title span.sitestr").text     link: $(".title a.storylink").href之后在 Go 文件中来读取并使用这个脚本;package main import "github.com/wspl/creeper" func main() {     c := creeper.Open("./hacker_news.crs")     c.Array("news").Each(func(c *creeper.Creeper) {         println("title: ", c.String("title"))         println("site: ", c.String("site"))         println("link: ", c.String("link"))         println("===")     }) }执行后,将会如期地输出类似下面的内容:title:  Samsung chief Lee arrested as S.Korean corruption probe deepens site:  reuters.com link:  http://www.reuters.com/article/us-southkorea-politics-samsung-group-idUSKBN15V2RD === title:  ReactOS 0.4.4 Released site:  reactos.org link:  https://reactos.org/project-news/reactos-044-released === title:  FeFETs: How this new memory stacks up against existing non-volatile memory site:  semiengineering.com link:  http://semiengineering.com/what-are-fefets/ 标签:Creeper
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值