爬虫那些事儿--站点压力控制相关

本文讨论了爬虫在抓取数据时如何进行站点压力控制,指出不同站点对爬虫的压力容忍度各异,且压力允许程度并不公开。压力控制主要涉及抓取间隔和并发度,以及压力的粒度、计算和执行。文章提到了压力计算策略,包括考虑站点规模、质量、成分、待抓比、访问时间和站点约定等因素,并讨论了抓取压力需考虑的其他问题,如站点的访问高峰时段和新闻时效性等。
摘要由CSDN通过智能技术生成

  经过前面的介绍,我们大致了解了站点压力控制对于爬虫的重要性。但是站点压力控制对于爬虫来说,是一个比较Open的话题。即到目前为止也没有一个很准确的压力控制方法。

主要的问题由于以下几点:

  1. 不同站点对于爬虫的压力允许程度不同。 即由于站点的规模不同、站点的服务器配置不同等。不同的站点能承受的压力是不同的。同时不同的站点对于爬虫的友好程度不同。有些站点允许爬虫爬去其数据,而有些站点不希望爬虫爬取其数据。对于爬虫的压力允许也就不同。
  2. 站点对于不同爬虫的压力允许程度不同。 网络中的爬虫有很多,有大的搜索引擎公司的爬虫,比如google的Googlebot,百度的baiduspider,搜狗的sogou spider,有道的YodaoBot,腾讯的Sosospider,msn的是Msnbot。还有一些个人开发的用来尝试的小的爬虫。因此即使同一站点,对于网络中的不同爬虫的压力允许程度不同的。因为站点让爬虫爬取数据是希望能让搜索引擎搜录其数据,从而可以给用户检索,一遍用户通过搜索引擎访问到自己站点的数据。即给自己带来流量。因此会考虑给自己来来流量的大小而对不同的爬虫允许的程度不同。目前国内百度是第一大的搜索引擎公司。其爬虫的技术比较成熟。同时各大网站对其爬虫的压力允许程度也相对要宽松一些。即允许其爬虫更多的技术。(也有主动向其推送数据的)。每个爬虫都需要考虑站点对于自己能允许的压力。
  3. 站点对于爬虫的压力允许程度不是公开的。 由于网络上的爬虫,站点不可能一一告诉各个爬虫其允许的压力程度。同时站点也大致都没有告诉爬虫其压力程度。站点都是在自己的服务器管理上添加爬虫访问的限制工具。当爬虫压力过大时直接封禁爬虫处理。

但是即便对于爬虫来说进行压力控制是一个困难的问题,但是对于一个正规的爬虫来说,如果想爬虫站点的数据,就不得不面对这个问题。

而站点的压力控制可以分为以下几点:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值