【GoCN酷Go推荐】Html解析利器-goquery库

goquery是一个基于Go的net/html和cascadia CSS选择器库,提供了类似jQuery的API来方便地解析和操作HTML文档。通过goquery,你可以轻松地选取元素、获取HTML、文本和属性值,简化了Go中HTML解析的工作。本文介绍了goquery的基本用法,包括选择器、属性获取和长度检查等,并提醒读者在使用爬虫时要遵守法律法规。
摘要由CSDN通过智能技术生成

简介

什么是goquery?

goquery是由Go实现的基于Go的net/html包和CSS选择器库cascadia的HTML解析库。

由于net/html解析器需要UTF-8编码,goquery也同样需要,所以需要确保提供的html是UTF-8编码。

为什么用goquery?

由于net/html解析器返回的是节点,而不是功能齐全的DOM树,所以在使用的过程中goquery可以提供更便利的操作。

快速上手 

我们先对微博热搜进行一个简单的解析,打印当日的热搜排名标题以及热度。

package main

import (
 "fmt"
 "github.com/PuerkitoBio/goquery"
 "log"
 "net/http"
)

type Data struct {
 number string
 title  string
 heat   string
}

func main() {
 // 爬取微博热搜网页
 res, err := http.Get("https://s.weibo.com/top/summary")
 if err != nil {
  log.Fatal(err)
 }
 defer res.Body.Close()
 if res.StatusCode != 200 {
  log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)
 }
 //将html生成goquery的Document
 dom, err := goquery.NewDocumentFromReader(res.Body)
 if err != nil {
  log.Fatalln(err)
 }
 var data []Data
 // 筛选class为td-01的元素
 dom.Find(".td-01").Each(func(i int, selection *goquery.Selection) {
  data = append(data, Data{number: selection.Text()})
 })
 // 筛选class为td-02的元素下的a元素
 dom.Find(".td-02>a").Each(func(i int, selection *goquery.Selection) {
  data[i].title = selection.Text()
 })
 // 筛选class为td-02的元素下的span元素
 dom.Find(".td-02>span").Each(func
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值