在做爬虫时,经常要用到html解析器提取数据,Python里面有神器lxml
,go里面可以选择htmlquery或者goquery。其中htmlquery使用xpath选择器,goquery使用css选择器。就使用体验来说,htmlquery更方便一些,这儿主要介绍htmlquery的一些基本用法。
htmlquery是用于HTML的XPath数据提取库,可让通过XPath表达式从HTML文档中提取数据,使用起来很简单方便。xpath语法见https://www.w3school.com.cn/xpath/xpath_syntax.asp。
htmlquery安装:
go get github.com/antchfx/htmlquery
经常使用到的函数有:func Parse(r io.Reader) (*html.Node, error)
:
返回给定Reader的HTML的解析树。func Find(top *html.Node, expr str