go爬虫初探1
go爬虫先了解go的"net/http"包
这里先学习一下go的get和post请求,具体就是请求数据,然后获取返回的resp,分析resp获取你想要爬取的东西
具体代码可到 https://gitee.com/longshuai/go-reptile 这里下载
爬虫初探
u := fmt.Sprintf(`https://movie.douban.com/top250?start=%d`, 0)
client := &http.Client{}
req, err := http.NewRequest(http.MethodGet, u, nil)
if err != nil {
panic(err)
return
}
req.Header.Set(`User-Agent`, `Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36`)
resp, err := client.Do(req)
这里张贴主要代码,首先创建一个客户端,通过http.NewRequest 请求url地址,req.Header.Set设置ua,最后执行client.Do(req),就可以返回爬取的页面。第一步就算完成了。
处理爬取的页面信息
1、通过ioutil包就可以读取爬取的页面信息了,但是ioutil包是一次性读取的
body, err := ioutil.ReadAll(resp.Body)