go语言提取html,Golang高并发抓取HTML图片

最新推荐文章于 2024-05-12 17:36:03 发布

摸鱼的月鸪

最新推荐文章于 2024-05-12 17:36:03 发布

阅读量751

点赞数

文章标签： go语言提取html

本文介绍了一个使用Golang编写的程序，能够高效地从HTML页面中提取带有HTTP协议头的图片链接，并将图片保存到指定目录。程序通过多线程并行抓取，支持设置代理地址，并提供了错误处理机制。

摘要由CSDN通过智能技术生成

使用准备

1.安装Golang

2.下载爬虫包

go get -v github.com/hunterhug/marmot/expert

go get -v github.com/hunterhug/marmot/miner

go get -v github.com/hunterhug/parrot/util

程序

该程序只能抓取HTML中src="http"中的图片, 必须带有协议头http(s), 其他如data-src和混淆在JS中的无法抓取

package main

import (

"errors"

"fmt"

"net/url"

"strings"

"github.com/hunterhug/marmot/expert"

"github.com/hunterhug/marmot/miner"

"github.com/hunterhug/parrot/util"

)

// Num of miner, We can run it at the same time to crawl data fast

var MinerNum = 5

// You can update this decide whether to proxy

var ProxyAddress interface{}

func main() {

// You can Proxy!

// ProxyAddress = "socks5://127.0.0.1:1080"

fmt.Println(`Welcome: Input "url" and picture keep "dir"`)

for {

fmt.Println("---------------------------------------------")

url := util.Input(`URL(Like: "http://publicdomainarchive.com")`, "http://publicdomainarchive.com")

dir := util.Input(`DIR(Default: "./picture")`, "./picture")

fmt.Printf("You will keep %s picture in dir %s\n", url, dir)

fmt.Println("---------------------------------------------")

// Start Catch

err := CatchPicture(url, dir)

if err != nil {

fmt.Println("Error:" + err.Error())

}

}

}

// Come on!

func CatchPicture(picture_url string, dir string) error {

// Check valid

_, err := url.Parse(picture_url)

if err != nil {

return err

}

// Make dir!

err = util.MakeDir(dir)

if err != nil {

return err

}

// New a worker to get url

worker, _ := miner.New(ProxyAddress)

result, err := worker.SetUrl(picture_url).SetUa(miner.RandomUa()).Get()

if err != nil {

return err

}

// Find all pictu

最低0.47元/天解锁文章

摸鱼的月鸪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
go语言提取html,Golang高并发抓取HTML图片

使用准备1.安装Golang2.下载爬虫包go get -v github.com/hunterhug/marmot/expertgo get -v github.com/hunterhug/marmot/minergo get -v github.com/hunterhug/parrot/util程序该程序只能抓取HTML中src="http"中的图片, 必须带有协议头http(s), 其他如d...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。