Go 语言圣经 8.6 并发的web爬虫

8.6 并发的web爬虫

知识点

  • 1.用bfs(广度优先)算法来抓取整个网站
  • 2.每一个彼此独立的抓取命令可以并行进行IO,最大化利用网络资源

代码

func test_web_crawler()  {

    //初步11111
    //crawl_one()

    //优化并发数量22222
    //第二个问题是这个程序永远都不会终止,即使它已经爬到了所有初始链接衍生出的链接
    //crawl_one()

    //优化并发程序能够终止33333
    crawl_one()
}
/*
    练习 8.6: 为并发爬虫增加深度限制。
    也就是说,如果用户设置了depth=3,
    那么只有从首页跳转三次以内能够跳到的页面才能被抓取到。
*/
var depths int64 = 3
var depthFirst int64 = 0

var tokens = make(chan struct{}, 20)
func web_crawl_two(url string) []string {
    fmt.Println(url)
    if
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值