蜘蛛爬取网页服务器卡死,总结搜索引擎蜘蛛抓取不到页面的原因及改善措施

在诊断过程中,我们会遇到这样的问题。有些网页内容很好,用户可以正常访问。然而,搜索引擎蜘蛛只是不能正常访问和抓取它们,导致搜索结果覆盖率不足,这是百度等搜索引擎和网站的损失。百度称之为“抢夺例外”。对于很多内容不能正常抓取的网站,100搜索引擎会认为网站存在用户体验的缺陷,降低网站的评价,在抓取、索引、排序等方面会受到一定程度的影响,从而最终影响网站从搜索引擎获取流量。

下面总结一些常见的搜索引擎蜘蛛抓取不到的原因,供大家参考。

有两种服务器连接异常:一是网站不稳定,百度蜘蛛在尝试连接到你的网站服务器时暂时无法连接;二是百度蜘蛛已经无法连接到你的网站服务器。

服务器连接异常的原因通常是您的网站服务器太大和过载。您网站上的程序也可能无法正常工作。此方法可以检查空间的服务器(如Apache、IIS)是否已安装或正常运行,或者空间的防火墙是否阻止蜘蛛爬网。

有两种网络运营商:电信、联通和移动。百度蜘蛛无法通过运营商的网络访问你的网站,所以你需要联系运营商,或者购买更好的服务空间或CDN服务。

当百度蜘蛛无法解析你的网站IP时,就会出现DNS异常。可能是你的网站IP地址不对,或者百度蜘蛛被域名服务商禁止。您可以使用whois或host来检查您网站的IP地址是否正确和可解析。如果没有,请与域名服务提供商联系。例如,pro犁SEO的域名提供商是Wannet,并更新IP地址。

IP屏蔽的性能包括:限制网络的导出IP地址,禁止该IP段的用户访问内容,特别是屏蔽百度蜘蛛的IP地址。当你的网站不想百度蜘蛛访问,你可以设置它。如果您希望百度蜘蛛访问,请检查相关设置,或联系空间服务提供商更改设置。当然,百度蜘蛛一般都会抢到它。

f363457eb210a4989e9516b0989f297f.png

总结搜索引擎蜘蛛抓取不到页面的原因及改善措施

简而言之,死链接指的是正常但后来失败的链接。当死链接发送请求时,服务器返回404错误页。死链包括协议死链和内容死链。协议死链:由页面的TCP协议状态/ HTTP协议状态明确指示的死链,如404, 403, 503状态等内容死链:服务器返回的状态是正常的,但内容已被更改为不存在的信息页,已被删除,或需要权限,与原文内容无关。

对于死链,建议网站使用协议死链,通过百度站长平台死链工具提交给百度,这样百度可以更快地找到死链,减少死链对用户和搜索引擎的影响。

将网络请求重定向到另一个位置是一个跳转,它指的是以下情况:

(1) 当前页是无效页(包括要删除的内容、死链等),直接跳转到上一个目录或主页。百度的建议是删除无效页面的入口超链接。

(2)长期以来跳转到其他域名,如更改网站域名,百度建议使用301重定向跳转协议进行设置。

(3) 对于百度引荐人的例外情况:该网页不用于百度引荐人的正常行为;

(4) 对于Baidu-UA的例外:返回Baidu-UA页面的行为与页面的原始内容不同;

(5) JS跳转异常:网页加载百度无法识别和发送的JS跳转代码,用户通过搜索结果进入网页后跳转。

(6) 偶尔因压力过大而被禁:百度会根据网站规模、访问量等信息自动设置合理的抓取压力。但在压力控制异常等异常情况下,服务器会根据自身负载进行保护意外闭锁。在这种情况下,请在返回码中返回503(503serviceunavailable,等同于404serviceunavailable),百度蜘蛛会在一段时间内再次尝试抓取链接。如果网站处于空闲状态,将成功对其进行爬网。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值