go实现分布式爬虫1

本文介绍了使用Go语言的`net/http`包构建爬虫的初步步骤,包括发起HTTP GET和POST请求,设置UA,以及如何处理爬取的页面信息。提供了主要代码示例,演示了如何创建客户端,请求URL并解析响应。对于POST情况下可能无法获取数据的问题,提出了利用结构体和JSON的方法。
摘要由CSDN通过智能技术生成

go爬虫初探1

go爬虫先了解go的"net/http"包

这里先学习一下go的get和post请求,具体就是请求数据,然后获取返回的resp,分析resp获取你想要爬取的东西

具体代码可到 https://gitee.com/longshuai/go-reptile 这里下载

爬虫初探

u := fmt.Sprintf(`https://movie.douban.com/top250?start=%d`, 0)
	client := &http.Client{}

	req, err := http.NewRequest(http.MethodGet, u, nil)
	if err != nil {
		panic(err)
		return
	}
	req.Header.Set(`User-Agent`, `Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36`)
	resp, err := client.Do(req)

这里张贴主要代码,首先创建一个客户端,通过http.NewRequest 请求url地址,req.Header.Set设置ua,最后执行client.Do(req),就可以返回爬取的页面。第一步就算完成了。

处理爬取的页面信息

1、通过ioutil包就可以读取爬取的页面信息了,但是ioutil包是一次性读取的

body, err := ioutil.ReadAll(resp.Body)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值