应工作内容需求,要爬取两个网站的数据(至于是什么网站,这里就不透露了,哈哈,害怕被发现了封ip),这些数据是定期更新的。由于后端的所有服务都是用go写的,于是不打算用python,还是想用go来完成这个需求,github里搜了下,发现goquery这个爬虫包用的人还挺多的,5000多个star,而且是BSD开源协议,于是毫不犹豫的拿来用了。
首先,go get https://github.com/PuerkitoBio/goquery
其次,分析这两个网站的DOM布局,发现还是比较好爬的。
先来一波goquery的常见用法:
Document 代表一个HTML文档,
type Document struct {
*Selection
Url *url.URL
rootNode *html.Node
}
Document 继承了Selection 类型,因此,Document 可以直接使用 Selection 类型的方法。
而Selection 则对应的是dom节点集合
type Selection struct {
Nodes []*html.Node
document *