go语言解析HTML

1、Go语言获取HTML的源码,为string格式,用第三方包(“github.com/PuerkitoBio/goquery”)解析string格式的HTML源码。
2、代码如下:

package main

import (
	"fmt"
	"os/exec"
	"log"
	"strings"

	"github.com/PuerkitoBio/goquery"
)
/*
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<html>
 <head>
  <title>Index</title>
 </head>
 <body>
<table>
<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]"></td><td><a href="xxxx.whl">xxxx.whl</a></td><td align="right">2019-11-30 13:22  </td><td align="right">6.8M</td><td>&nbsp;</td></tr>
<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]"></td><td><a href="xxxxxx.whl">xxxxxx.whl</a></td><td align="right">2019-11-30 13:39  </td><td align="right">6.7M</td><td>&nbsp;</td></tr>
   <tr><th colspan="5"><hr></th></tr>
</table>
</body></html>
*/
func main() {
	order := `curl --noproxy "*" http://10.11.**.**:80/`
    fmt.Println(order)
	cmd := exec.Command("/bin/bash", "-c", order)
	out, err := cmd.Output()
	if err != nil {
		fmt.Println("err",err)
	}
	doc, err := goquery.NewDocumentFromReader(strings.NewReader(string(out)))
	if err != nil {
		log.Fatal(err)
	}
	doc.Find("tr").Each(func(i int, s *goquery.Selection) {
		href, exists := s.Find("a").Attr("href")
		if !exists {
			return
		}
		fmt.Printf("result %d: %s \n", i, href)//xxxx.whl   xxxxxx.whl
	})
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值