Golang爬虫实战从零开始(一) 准备工作

这是 Golang 爬虫(狭义的说应该是网络爬虫)系列教程,也是我本人从零开始使用 Golang 进行爬虫学习的总结。

我是一个 PHP/Golang 开发工程师,同时对前端也有一定的经验,之前并没有 Golang 程序进行过爬虫。

文中的写法和格式风格都是依据经验和现学现用,如果有不符合代码规范或最佳实践的地方,还请不吝赐教。

为什么选择Golang爬虫

目前主流爬虫大多都是使用 Python 来实现,因为 Python 有很多爬虫的配套设施,单纯从开发效率和简单易用性来说,确实是最佳的选择。但是因为我本人对 Python 不是很熟悉,正好最近使用 Golang 比较多,索性就从零开始,基于 Golang 来试一试编写爬虫。

准备工作

  1. 网络爬虫概念

    爬虫通俗来说就是抓取网页数据,比如说大家都喜欢的妹子图、小视频呀,还有电子书、文字评论、商品详情等等。

    只要网页上有的,都可以通过爬虫爬取下来。

    一般而言,爬虫需要以下几步:

    1. 找到需要爬取内容的网页 URL
    2. 打开该网页的检查页面(即查看HTML代码,按F12快捷键即可进入)
    3. 在HTML代码中找到你要提取的数据
    4. 写代码进行网页请求、解析
    5. 存储数据
  2. Golang 开发环境搭建,IDE 推荐 Goland,这个是真的好用,环境安装具体就不多说。

  3. 框架选择

    Golang 现在有比较多的爬虫库可以选择,比如:

    colly

    GoQuery

    pholcus

    soup

    本系列文章使用 colly,不熟悉,没用过的同学,可以去 github 看看文档。

    Colly是一个基于Go语言的灵活的爬虫框架,开箱即用,你会获得一些速率限制,并行爬行等支持。
    Colly基本组件之一是Collector,Collector保持跟踪那些需要被爬取的页面,并且保持回调当页面被爬取的时候。

初始化项目

首先创建一个文件夹 golang-spider
进入文件夹运行命令初始化 go.mod 文件

关于 go.mod 使用,参考 Go go.mod详解

go mod init golang-spider
  • 安装 colly 依赖
goget -u github.com/gocolly/colly
  • 创建 cmd 文件夹,新建 main.go,写入下面空代码 :
package main

func main() {

}

接下来就该开始练手了

准备工作就绪,接下来就开始实战练手。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值