Golang爬虫实战从零开始(一) 准备工作

最新推荐文章于 2024-05-15 03:32:31 发布

fpy5627

最新推荐文章于 2024-05-15 03:32:31 发布

阅读量839

点赞数

分类专栏： Golang 文章标签： golang 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fpy5627/article/details/117432552

版权

Golang 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这是 Golang 爬虫(狭义的说应该是网络爬虫)系列教程，也是我本人从零开始使用 Golang 进行爬虫学习的总结。

我是一个 PHP/Golang 开发工程师，同时对前端也有一定的经验，之前并没有 Golang 程序进行过爬虫。

文中的写法和格式风格都是依据经验和现学现用，如果有不符合代码规范或最佳实践的地方，还请不吝赐教。

为什么选择Golang爬虫

目前主流爬虫大多都是使用 Python 来实现，因为 Python 有很多爬虫的配套设施，单纯从开发效率和简单易用性来说，确实是最佳的选择。但是因为我本人对 Python 不是很熟悉，正好最近使用 Golang 比较多，索性就从零开始，基于 Golang 来试一试编写爬虫。

准备工作

网络爬虫概念

爬虫通俗来说就是抓取网页数据，比如说大家都喜欢的妹子图、小视频呀，还有电子书、文字评论、商品详情等等。

只要网页上有的，都可以通过爬虫爬取下来。

一般而言，爬虫需要以下几步：
1. 找到需要爬取内容的网页 URL
2. 打开该网页的检查页面（即查看HTML代码，按F12快捷键即可进入）
3. 在HTML代码中找到你要提取的数据
4. 写代码进行网页请求、解析
5. 存储数据
Golang 开发环境搭建，IDE 推荐 Goland，这个是真的好用，环境安装具体就不多说。
框架选择

Golang 现在有比较多的爬虫库可以选择，比如:

colly

GoQuery

pholcus

soup

本系列文章使用 colly，不熟悉，没用过的同学，可以去 github 看看文档。

Colly是一个基于Go语言的灵活的爬虫框架，开箱即用，你会获得一些速率限制，并行爬行等支持。
Colly基本组件之一是Collector，Collector保持跟踪那些需要被爬取的页面，并且保持回调当页面被爬取的时候。

初始化项目

首先创建一个文件夹 golang-spider
进入文件夹运行命令初始化 go.mod 文件

关于 go.mod 使用，参考 Go go.mod详解

go mod init golang-spider

安装 colly 依赖

goget -u github.com/gocolly/colly

创建 cmd 文件夹，新建 main.go，写入下面空代码：

package main

func main() {

}

接下来就该开始练手了

准备工作就绪，接下来就开始实战练手。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Golang爬虫实战从零开始(一) 准备工作

这是 Golang 爬虫(狭义的说应该是网络爬虫)系列教程，也是我本人从零开始使用 Golang 进行爬虫学习的总结。我是一个 PHP/Golang 开发工程师，同时对前端也有一定的经验，之前并没有 Golang 程序进行过爬虫。文中的写法和格式风格都是依据经验和现学现用，如果有不符合代码规范或最佳实践的地方，还请不吝赐教。为什么选择Golang爬虫目前主流爬虫大多都是使用 Python 来实现，因为 Python 有很多爬虫的配套设施，单纯从开发效率和简单易用性来说，确实是最佳的选择。但是因为我本
复制链接

扫一扫

专栏目录

fpy5627 CSDN认证博客专家 CSDN认证企业博客

码龄13年

3: 原创

49万+: 周排名

179万+: 总排名

2614: 访问

: 等级

48: 积分

0: 粉丝

2: 获赞

0: 评论

11: 收藏

私信

关注

热门文章

分类专栏

linux & shell 2篇
Golang 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。