golang 提取html数据,goLang 多线程抓取网页数据-Go语言中文社区

最新推荐文章于 2024-05-15 09:39:04 发布

gjbgyuhg

最新推荐文章于 2024-05-15 09:39:04 发布

阅读量784

点赞数

文章标签： golang 提取html数据

突然有个想法想用goLang快速的抓取网页数据,于是想到了多线程进行页面抓取

package main

import (

"fmt"

"log"

"net/http"

"os"

"strconv"

"sync"

"time"

)

func init() {

defer func() {

if err := recover(); err != nil {

fmt.Print("error:%s", err)

}

}()

}

var waitgroup sync.WaitGroup

func main() {

var url string = "http://www.nowamagic.net/librarys/veda/all/"

for i := 1; i <= 135; i++ {

waitgroup.Add(1) //计数器+1 可以认为是队列+1

go reslove(url, i)

}

waitgroup.Wait() //进行阻塞等待如果队列不跑完一直不终止

}

func reslove(url string, page int) {

p := strconv.Itoa(page)

url += p

defer waitgroup.Done() //如果跑完就进行队列-1

log.Println("start " + url)

h, err := http.Get(url)

if err != nil {

panic(err)

return

}

if h.StatusCode != http.StatusOK { //如果获取状态不为 200,输出状态程序结束

panic(err)

return

}

defer h.Body.Close()

buf := make([]byte, 1024) //创建一个字节数组长度为 1024

file_open, err := os.OpenFile("./html/"+p+".html", os.O_RDWR|os.O_CREATE|os.O_APPEND, os.ModePerm)

if err != nil {

panic(err)

return

}

defer func() {

time.Sleep(time.Duration(1 * 1e9))

file_open.Sync()

file_open.Close()

}()

for { //无限循环,读取网页数据

num, _ := h.Body.Read(buf)

//如果获取数量为0，说明已经取到头了

if num == 0 {

break

}

file_open.WriteString(string(buf[:num]))

}

log.Println("end " + url)

}

可以从打印出来的 log 日志看出他们都是同一时间执行 start

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
golang 提取html数据,goLang 多线程抓取网页数据-Go语言中文社区

突然有个想法想用goLang快速的抓取网页数据,于是想到了多线程进行页面抓取package mainimport ("fmt""log""net/http""os""strconv""sync""time")func init() {defer func() {if err := recover(); err != nil {fmt.Print("error:%s", err)}}()}var ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。