1. 拉取软件包
go get github.com/gocolly/colly
2. 创建colly的收集器
colly.NewCollector()
可以在创建的时候进行配置
c := colly.NewCollector(colly.AllowURLRevisit())
也可以创建后进行配置, 如:
c := colly.NewCollector()
c.DetectCharset = true
3. 捕获页面的元素
// 在box这个class里面进行筛选
c.OnHTML(".box", func(h *colly.HTMLElement) {
// 获取 dd标签内部的所有a标签
h.ForEach("dd a", func(i int, h *colly.HTMLElement) {
// 获取标签内嵌的文本
println(h.Text)
// 获取标签的href属性
println(h.Attr("href"))
})
})
4. 设置要爬取页面的网址
c.Visit("https://www.xxx.com")