推荐背景
日常业务开发中常会遇到一些采集整理互联网数据信息的业务需求,单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高,此时就用爬虫手段来对数据进行自动采集降低完成业务所需的人力成本;若想用 Go 语言程序来进行爬虫,则推荐使用 gocolly/colly ,它提供简洁的 API,快速且容易地从互联网上获取结构化的数据。
gocolly/colly 是什么
gocolly/colly(https://github.com/gocolly/colly) 是强大 Go 语言爬虫框架,使用Colly 可以开发各种强大的爬虫系统,Colly 提供简洁易用的 API,Colly 快速(在单核上 1 千次请求/秒),能够管理请求延迟,能够同步/同步/并发/分布式爬虫,自动处理 cookie&session,支持缓存,可以通过环境变量进行配置,除此之外你还根据自己的业务需求扩展它的功能。
怎么使用
gocolly/colly 是因为用 Go 语言开发的,因此使用前要安装 Go 语言,Go 语言版本没有限制,建议使用 Go 语言 1.14+ 版本。
具体使用请观看以下视频:
视频 Ytb 地址(https://www.youtube.com/watch?v=4VSno5bK9Uk)
视频配套文档请点击以下链接进行阅读:
英文文档(https://divrhino.com/articles/build-webscraper-with-go-and-colly/)
中文文档(https://gocn.vip/topics/17416)
想了解更多(https://pkg.go.dev/github.com/gocolly/colly/v2)。
小结
gocolly/colly 目前 Github Go 爬虫类包中 Star 数量最多,满足日常网络爬虫业务需求,使用很方便,也可以在改包基础上功能扩展开发满足更多个性化需求。
相关资料
gocolly/colly 官方仓库
gocolly/colly 包文档
如何使用 Go 和 Colly 包构建网页爬虫
How to build a web scraper with Go and Colly
《酷Go推荐》招募:
各位Gopher同学,最近我们社区打算推出一个类似GoCN每日新闻的新栏目《酷Go推荐》,主要是每周推荐一个库或者好的项目,然后写一点这个库使用方法或者优点之类的,这样可以真正的帮助到大家能够学习到
新的库,并且知道怎么用。
大概规则和每日新闻类似,如果报名人多的话每个人一个月轮到一次,欢迎大家报名!戳「阅读原文」,即可报名
扫码也可以加入 GoCN 的大家族哟~