用Go来爬虫 goquery使用

本文介绍了如何使用Go语言的goquery库进行网页爬虫开发。通过go get安装goquery后,分析目标网站DOM结构,利用goquery提供的选择器和操作方法,如Eq、First、Next等,实现对HTML文档的遍历和节点信息提取。文章详细列举了goquery的主要功能,并展示了针对两个不同网站的爬虫实现过程。
摘要由CSDN通过智能技术生成

应工作内容需求,要爬取两个网站的数据(至于是什么网站,这里就不透露了,哈哈,害怕被发现了封ip),这些数据是定期更新的。由于后端的所有服务都是用go写的,于是不打算用python,还是想用go来完成这个需求,github里搜了下,发现goquery这个爬虫包用的人还挺多的,5000多个star,而且是BSD开源协议,于是毫不犹豫的拿来用了。

首先,go get https://github.com/PuerkitoBio/goquery

其次,分析这两个网站的DOM布局,发现还是比较好爬的。

先来一波goquery的常见用法:

Document 代表一个HTML文档,

type Document struct {
    *Selection  
    Url      *url.URL
    rootNode *html.Node
    }

Document 继承了Selection 类型,因此,Document 可以直接使用 Selection 类型的方法。
而Selection 则对应的是dom节点集合

type Selection struct {
    Nodes    []*html.Node
    document *
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值