Golang爬虫入门指南_golang mini-spider详解 goodcoder

2401_84254555

于 2024-04-17 07:47:06 发布

阅读量793

点赞数 10

分类专栏： 2024年程序员学习文章标签： golang 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84254555/article/details/137853381

版权

2024年程序员学习专栏收录该内容

92 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Golang全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注go）

正文

“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败：”, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
fmt.Println(“解析HTML失败：”, err)
return
}

// 在这里进行HTML解析操作…

}

上面的代码中，我们使用html.Parse函数来解析HTML，并得到一个表示整个HTML文档的树状结构。在这个树状结构中，我们可以使用不同的方法来查找和提取我们需要的数据。

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败：”, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
fmt.Println(“解析HTML失败：”, err)
return
}

findLinks(doc)
}

func findLinks(n *html.Node) {
if n.Type == html.ElementNode && n.Data == “a” {
for _, a := range n.Attr {
if a.Key == “href” {
fmt.Println(a.Val)
}
}
}

for c := n.FirstChild; c != nil; c = c.NextSibling {
findLinks©
}
}

上面的代码中，我们定义了一个递归函数findLinks来查找HTML中的所有链接。我们使用html.Node的Type和Data属性来判断当前节点是否为<a>标签，并使用Attr属性来获取链接的地址。

四、并发爬虫

并发是Golang的一个重要特性，能够提高爬虫的效率。我们可以使用Golang的并发机制来同时发送多个HTTP请求，加快网页的爬取速度。

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
urls := []string{
“https://www.example.com/page1”,
“https://www.example.com/page2”,
“https://www.example.com/page3”,
}

ch := make(chan string)

for _, url := range urls {
go fetch(url, ch)
}

for range urls {
fmt.Println(<-ch)
}
}

func fetch(url string, ch chan<- string) {
resp, err := http.Get(url)
if err != nil {
ch <- fmt.Sprintf(“请求 %s 发送失败：%v”, url, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
ch <- fmt.Sprintf(“解析 %s 失败：%v”, url, err)
return
}

// 在这里进行HTML解析操作…

ch <- fmt.Sprintf(“请求 %s 完成”, url)
}

上面的代码中，我们定义了一个ch通道用于接收爬虫的结果。然后，我们使用go关键字来开启多个协程，每个协程负责爬取一个网页的内容并进行解析。最后，我们使用<-ch来从通道中获取结果并打印出来。