go爬虫

思路

1、明确要爬取的网站和信息
2、爬取网站得到全部信息
3、提取出有用的信息
4、进行保存,或者进一步爬取信息

代码

可以使用get和post进行访问网站,以下是爬取网站信息的一个实例

package main

import (
	"fmt"
	"strconv"
	"net/http"
	"regexp"
	"os"
)

/*
这是一个爬虫的实战练习
爬取https://duanziwang.com/网站的有用信息
并按照分页来使用go协程
 */

 //进行网页爬取
func WormWork(neturl string)(string,error){
	requ,err:=http.Get(neturl)
	if err!=nil{
		return "",err
	}
	var bifu =make([]byte,4*1024)
	var dastr string
	defer requ.Body.Close()
	for{
		n,err1:=requ.Body.Read(bifu)
		if n==0||err1!=nil{
			break
		}
		dastr+=string(bifu[:n])
	}
	return dastr,nil
}
//获取到主页面有用的信息并返回
func GetUseData(data string)(uselink []string){
	reg :=regexp.MustCompile(`<h1 class="post-title"><a href="(.{3,})">`)
	datati:=reg.FindAllString(data,10)
	for _,v:=range datati  {
		usreg :&
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值