goLang爬取html

本文介绍了使用Go语言进行网页抓取和解析的基本步骤,包括HTTP请求、HTML解析及数据提取。通过实例展示了如何利用Go的net/http包发送GET请求获取网页源码,并使用html包解析HTML结构,提取关键信息,帮助开发者入门网络爬虫开发。
摘要由CSDN通过智能技术生成
package main

import (
	"fmt"
	"net/http"
	"os"
	"strconv"
)
//爬取网页内容
func HttpGet(url string)(result string ,err error){
	resp , err1 :=http.Get(url)
	if err1 !=nil{
		err = err1
		return
	}
	defer resp.Body.Close()

	//读取网页body内容
	buf := make([]byte, 1024*4 )
	for{
		n, err := resp.Body.Read(buf)
		//读取结束,或者出问题
		if n == 0 {
			fmt.Println("resp.Body.Read err = ",err)
			break
		}
		result += string(buf[:n])

	}
	return

}
func DoWork(start,end int){
	fmt.Printf("正在爬取 %d 到 %d 的页面",start,end)
	//每一页+50 https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50
	for i:=start;i<=end;i++{
		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn="+strconv.Itoa((i-1)*50)
		fmt.Println("url = ",url)
		result, err := HttpGet(url)
		if err !&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值