4chan 爬虫_不可描述的爬虫 - Upcyan - 主页 - OSCHINA - 中文开源技术交流社区

这是一个使用Go语言编写的简单爬虫程序,用于从4chan论坛的特定页面抓取并下载小图片。程序首先定义了错误处理、获取网页内容和下载文件的函数。然后在主函数中遍历指定的页面,调用`GetImages`函数,该函数通过正则表达式匹配图片URL,并将图片下载到本地目录。每个图片文件名由其在结果中的位置和`.jpg`扩展名组成。
摘要由CSDN通过智能技术生成

package main

import (

"net/http"

"io/ioutil"

"regexp"

"strings"

"os"

"strconv"

"fmt"

)

func Check(err error) {

defer func() { err = nil }()

if err != nil {

println("****ERROR****")

panic(err)

}

}

// 获取网页

func GetHTML(url string) (body string) {

res, err := http.Get(url)

Check(err)

defer res.Body.Close()

// 网页格式化

data, err := ioutil.ReadAll(res.Body)

Check(err)

body = string(data)

return

}

// 获取下载文件

func downloadfile(url string) (file []byte) {

res, err := http.Get(url)

Check(err)

defer res.Body.Close()

// 格式化

file, err = ioutil.ReadAll(res.Body)

Check(err)

return

}

func main() {

println("======================================================\n")

println("\t小图片爬取程序\n")

// 爬取页码

//pages := []string{"2", "3", "4", "5", "6", "7", "8", "9", "10"}

pages := []string{"2"}

for _, index := range pages {

GetImages("http://boards.4chan.org/s/" + index + "/")

}

}

// 图片匹配正则

var imageItemExp = regexp.MustCompile(`"//i\.4cdn\.org/s/[0123456789]+s\.jpg"`)

// 下载图片方法

func GetImages(url string) {

// 提取图片链接

body := GetHTML(url)

imgs := imageItemExp.FindAllStringSubmatch(body, 10000)

// 链接格式化(去掉引号)

imgUrl := make([]string, 0)

for _, v := range imgs {

u := strings.Replace(v[0], "\"", "", -1)

url := u[0:28]

imgUrl = append(imgUrl, url)

}

// 创建目录

dirName := "图片存放目录"

os.MkdirAll(dirName, 0777)

// 下载图片

for i, v := range imgUrl {

fileName := "./" + dirName + "/img-" + strconv.Itoa(i) + ".jpg"

data := downloadfile("http:" + v + ".jpg")

// 保存文件

if err := ioutil.WriteFile(fileName, data, 0666); err != nil {

println("****下载错误****")

panic(err)

} else {

fmt.Println("下载图片:", fileName)

}

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值