go语言 解析html,Golang通过pup实现HTML解析

上一周给我的网站加了一个搜索功能,能自动抓取我的博客和别人的CSDN博客。通过RSS抓取。这样数据格式规范,容易解析。问题是信息较少。后来发现在HTML源代码里面,会有为了方便搜索引擎索引的meta字段,能指出作者和详情。以我的博客《Golang实现HTTP发送gzip请求》为例。里面的meta信息如下:

查了查,一般大家通过xpath进行解析。有一个现成的包https://github.com/go-xmlpath/xmlpath,按照说明做了一下,不行。看了一下源码,这个包内部是通过encoding/xml实现的,如果HTML的代码有问题,标签不是严格按照规范编写的,就会有解析问题。同理,如果把HTML当作XHTML处理,也是不行的。

后来发现一个神奇的工具https://github.com/EricChiang/pup,通过命令go get github.com/ericchiang/pup安装。它可以通过管道调用:

curl -s http://blog.cyeam.com | pup 'div div div div h2 a'

直接抓取作者和简介可以用如下命令:

curl -s http://blog.cyeam.com/golang/2014/11/29/golang_gzip/ | pup 'head meta[name="author"] attr{content}'

curl -s http://blog.cyeam.com/golang/2014/11/29/golang_gzip/ | pup 'head meta[name="description"] attr{content}'

这个包能完美解决我的问题,进去看了一下源码,发现包名是main,再一个是因为它用来解析HTML不是那么方便,想了想,我囧的还是用cmd的方式通过管道执行。

req := httplib.Get("http://blog.cyeam.com/golang/2014/11/29/golang_gzip/")

res, err := req.Bytes()

if err != nil {

panic(err)

}

cmd := exec.Command("pup", `head meta`)

stdin, err := cmd.StdinPipe()

if err != nil {

panic(err)

}

// defer stdin.Close()

var output bytes.Buffer

cmd.Stdout = &output

if err = cmd.Start(); err != nil { //Use start, not run

fmt.Println("An error occured: ", err) //replace with logger, or anything you want

}

stdin.Write(res)

stdin.Close()

if err := cmd.Wait(); err != nil {

panic(err)

}

fmt.Println(string(output.Bytes())) //for debug

通过shell命令行管道是通过|实现,而通过Golang代码,需要通过exec包提供的Stdin实现。把内容写入标准输入流,就相当于管道输入了。写完了要关闭输入流stdin.Close(),如果不关闭,输入流不会被写入。。。

本文所涉及到的完整源码请参考。

有疑问加站长微信联系(非本文作者)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值