原文地址: https:// strconv.com/posts/web-c rawler-exercise-3/
在写爬虫的时候,想要对HTML内容进行选择和查找匹配时通常是不直接写正则表达式的:因为正则表达式可读性和可维护性比较差。用Python写爬虫这方面可选择的方案非常多了,其中有一个被开发者常用的库pyquery,而Golang也有对应的goquery,可以说goquery是jQuery的Golang版本实现。借用jQueryCSS选择器的语法可以非常方面的实现内容匹配和查找。
安装goquery
goquery是第三方库,需要手动安装:
❯ go get github.com/PuerkitoBio/goquery
创建文档
goquery向外暴露的结构主要是goquery.Document,一般是由2种方法创建的:
doc, error := goquery.NewDocumentFromReader(reader io.Reader)
doc, error := goquery.NewDocument(url string)
第二种直接传入了urlÿ