golang 匹配 url_用Golang写爬虫(三) - 使用goquery

本文介绍了在Golang中使用goquery库来解析HTML并提取内容,通过CSS选择器提高代码可读性和可维护性。示例中展示了如何获取豆瓣电影Top250条目的ID和标题,强调goquery在处理复杂HTML结构时的优势。
摘要由CSDN通过智能技术生成

098494452e89159e7c9da5f71d186126.png
原文地址: https:// strconv.com/posts/web-c rawler-exercise-3/

在写爬虫的时候,想要对HTML内容进行选择和查找匹配时通常是不直接写正则表达式的:因为正则表达式可读性和可维护性比较差。用Python写爬虫这方面可选择的方案非常多了,其中有一个被开发者常用的库pyquery,而Golang也有对应的goquery,可以说goquery是jQuery的Golang版本实现。借用jQueryCSS选择器的语法可以非常方面的实现内容匹配和查找。

安装goquery

goquery是第三方库,需要手动安装:

❯ go get github.com/PuerkitoBio/goquery

创建文档

goquery向外暴露的结构主要是goquery.Document,一般是由2种方法创建的:

doc, error := goquery.NewDocumentFromReader(reader io.Reader)
doc, error := goquery.NewDocument(url string)

第二种直接传入了urlÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值