搜索热词
Golang如何解析HTML代码
用Golang的朋友都知道如果我们要从HTML中提取一些内容、比如title或者是h2在或者是一些其他的HTML的内容、在Golang里面我们如果要自己写代码来提取还是相当的麻烦的;
由于我之前在写Pyhon的爬虫的时候也需要解析HTML标签;所以用过PyQuery和BS4.这次在用Golang写爬虫的时候就留意了一下是否有Golang版本的Query。github是个好地方;上面很找到很多开源的代码可以用;包括GoQuery。
所以这次会介绍一下如何用GoQuery来解析HTML元素。
导入Goquery模块
package main
import (
"fmt"
"github.com/opesun/goquery"
)
其实还有一个github.com/PuerkitoBio/goquery的goquery模块、但是配置环境经常出差就没有选择
Goquery的各种用法
goquery有Jquery的大部分特性;如果你熟悉Jquery的话用Goquery就很简单了
解析HTML的title
var url = "http://www.hiadmin.org/"
p,err := goquery.ParseUrl(url)
if err != nil {
panic(err)
} else {
pTitle := p.Find("title").Text()//直接提取title的内容
fmt.Println(pTitle)
}
命令行下运行go ru