GO语言实现爬虫（实现文字和图片爬取）

最新推荐文章于 2024-06-28 14:55:13 发布

shangguan_1234

最新推荐文章于 2024-06-28 14:55:13 发布

阅读量5.7k

点赞数 2

分类专栏： go goquery 爬虫文章标签：爬虫 go语言 goquery

本文链接：https://blog.csdn.net/shangguan_1234/article/details/79678462

版权

本文介绍了如何使用Go语言结合goquery库实现网页爬虫，包括文字和图片的抓取。提供了代码示例以及运行方式，如通过`go build pachong.go`编译，使用`-p`或`-n`选项分别进行图片或新闻的爬取。爬取的新闻数据存储在news.txt文件中，下载的图片可以通过`eog 图片名`查看。

摘要由CSDN通过智能技术生成

代码：

package main

import (
	"./goquery"
	"errors"
	"fmt"
	"io"
	"io/ioutil"
	"log"
	"net/http"
	"net/url"
	"os"
	"path/filepath"
	"strings"
)

func GetNews(s string) {

	file := "news.txt"
	fout, err := os.Create(file)
	defer fout.Close()
	if err != nil {
		fmt.Println(file, err)
		return
	}
	//	str := os.Args[1]
	str := s
	//doc, err := goquery.NewDocument("http://news.qq.com")
	doc, err := goquery.NewDocument(str)
	if err != nil {
		log.Fatal(err)
	}

	doc.Find(".content").Each(func(i int, s *goquery.Selection) {
		html, _ := s.Html()

		fout.WriteString(s.Text())
		fout.WriteString(html)
		fout.WriteString("\n")
	})
}
func downloadPic(urls []string, dir string) error {//xiazai tupian
	for _, link := r