如何解决搜索爬虫高频次抓取导致服务器崩溃的问题
首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量。但一旦承受不了,我们可以进行如下的操作。
方法一
第一步,注册并登录百度站长平台
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档
第三步,选择左侧“站点管理”
第四步,在已认证归属的站点列表中选择需要查询的站点
第五步,选择左侧“抓取压力反馈”
第六步,得到站点抓取压力曲线图及压力调整入口页面
第七步,选取站点压力反馈,调整滑块至您想要压力值,提交反馈
(注:当前数值,是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)
第八步,查看反馈记录,百度会以最新的反馈信息为准,对网站的抓取压力进行调整
方法二
优化robots.txt
很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外ÿ