爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

最新推荐文章于 2023-09-22 22:30:00 发布

Glacier Wu

最新推荐文章于 2023-09-22 22:30:00 发布

阅读量3.1k

点赞数

文章标签：爬虫网站服务器瘫痪

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

首先声明一点，如果网站能够承受爬虫的高频次访问，那是一件好事，这样有利于网站页面收录，提升网站来自搜索的访问量。但一旦承受不了，我们可以进行如下的操作。

方法一

第一步，注册并登录百度站长平台

第二步，提交网站并验证归属，具体验证网站归属方法可见帮助文档

第三步，选择左侧“站点管理”

第四步，在已认证归属的站点列表中选择需要查询的站点

第五步，选择左侧“抓取压力反馈”

第六步，得到站点抓取压力曲线图及压力调整入口页面

第七步，选取站点压力反馈，调整滑块至您想要压力值，提交反馈

(注：当前数值，是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)

第八步，查看反馈记录，百度会以最新的反馈信息为准，对网站的抓取压力进行调整

方法二

优化robots.txt

很多建站新手对robots.txt文件的重要作用不是很清楚，利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题首先声明一点，如果网站能够承受爬虫的高频次访问，那是一件好事，这样有利于网站页面收录，提升网站来自搜索的访问量。但一旦承受不了，我们可以进行如下的操作。方法一第一步，注册并登录百度站长平台第二步，提交网站并验证归属，具体验证网站归属方法可见帮助文档第三步，选择左侧“站点管理”第四步，在已认证归属的站点列表中选择需要查询的站点第五步，选择左侧“抓取压力反...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。