爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量。但一旦承受不了,我们可以进行如下的操作。

方法一

第一步,注册并登录百度站长平台

第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档

第三步,选择左侧“站点管理”

第四步,在已认证归属的站点列表中选择需要查询的站点

第五步,选择左侧“抓取压力反馈”

第六步,得到站点抓取压力曲线图及压力调整入口页面

第七步,选取站点压力反馈,调整滑块至您想要压力值,提交反馈

(注:当前数值,是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)

第八步,查看反馈记录,百度会以最新的反馈信息为准,对网站的抓取压力进行调整

方法二

优化robots.txt

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外ÿ

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值