go爬取照片

爬取壁纸族网站上的图片,图片会保存在当前工作目录的pic目录下。

代码:

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"regexp"
	"strconv"
	"strings"
	"time"
)

var (
	// 存放图片链接的数据管道
	chanImageUrls chan string
	// 存放网页的通道
	chanURL chan string
	// 用于监控协程
	reImg = `https?://[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
	// 图片保存路径
	saveDir = "./pic/"
)

func init() {
	os.MkdirAll(saveDir, 0755)
}

func main() {
	// 1.初始化管道
	chanImageUrls = make(chan string, 1000000)
	chanURL = make(chan string, 10000)
	//2.初始化URL 数据
	go func() {
		for i := 1; i < 100; i++ {
			url := "https://www.bizhizu.cn/wallpaper/" + strconv.Itoa(i) + ".html"
			chanURL <- url
		}
	}()
	// 3.爬虫协程,分析存在网页中的图片链接
	for i := 0; i < 20; i++ {
		go getImgUrls()
	}
	// 4.下载协程:从管道中读取链接并下载
	for i := 0; i < 20; i++ {
		go DownloadImg()
	}
	select {}
}

// 下载图片,传入的是图片叫什么
func downloadFile(url string, filename string) (ok bool) {
	resp, err := http.Get(url)
	if err != nil {
		log.Println("err:", err)
		return false
	}
	defer resp.Body.Close()
	bytes, err := ioutil.ReadAll(resp.Body)
	filename = saveDir + filename
	// 写数据
	err = ioutil.WriteFile(filename, bytes, 0666)
	if err != nil {
		return false
	} else {
		return true
	}
}

// 下载图片
func DownloadImg() {
	for url := range chanImageUrls {
		fmt.Println("剩余:", len(chanImageUrls))
		filename := GetFilenameFromUrl(url)
		ok := downloadFile(url, filename)
		if ok {
			fmt.Printf("%s 下载成功\n", filename)
		} else {
			fmt.Printf("%s 下载失败\n", filename)
		}
	}
}

// 截取url名字
func GetFilenameFromUrl(url string) (filename string) {
	// 返回最后一个/的位置
	lastIndex := strings.LastIndex(url, "/")
	// 切出来
	filename = url[lastIndex+1:]
	// 时间戳解决重名
	timePrefix := strconv.Itoa(int(time.Now().UnixNano()))
	filename = timePrefix + "_" + filename
	return
}

// 爬图片链接到管道
// url是传的整页链接
func getImgUrls() {
	for url := range chanURL {
		fmt.Println(url)
		urls := getImgs(url)
		// 遍历切片里所有链接,存入数据管道
		for _, url := range urls {
			chanImageUrls <- url
		}
	}
}

// 获取当前页图片链接
func getImgs(url string) (urls []string) {
	pageStr := GetPageStr(url)
	re := regexp.MustCompile(reImg)
	results := re.FindAllStringSubmatch(pageStr, -1)
	fmt.Printf("共找到%d条结果\n", len(results))
	for _, result := range results {
		url := result[0]
		urls = append(urls, url)
	}
	return
}

// 抽取根据url获取内容
func GetPageStr(url string) (pageStr string) {
	resp, _ := http.Get(url)

	defer resp.Body.Close()

	// 2.读取页面内容
	pageBytes, _ := ioutil.ReadAll(resp.Body)

	// 字节转字符串
	pageStr = string(pageBytes)
	return pageStr
}

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值