php 判断百度蜘蛛抓取,百度蜘蛛抓取不存在目录 对应的解决方法

相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件,这个是为什么哪?今天就为大家进行详细解析,讲解对应的解决办法,本篇文章干货较多,建议仔细阅读。d4fd6900f08a967a597a239d8748150d20201122133633.jpg

1,如果蜘蛛只抓取首页,打死不抓取内页,是什么情况!

很简单,4edebe50dc9d7d386df5f5f8c3f38f4d20201122133633.jpg

2,如果百度蜘蛛抓取一些隐私文件,例如php、zip、rar什么情况!

对于这种情况,你要去判断当前这个IP是不是假蜘蛛文件,因为现在很多IP会自动更改自己的UA,跟百度蜘蛛一样,你无法从蜘蛛日志中分辨,你可以去识别下IP,通过ip138看看是不是蜘蛛IP,如果不是,果断屏蔽掉,如果太多,按照IP段进行屏蔽。1b32af02ddf656b145b1e4bfc188db0320201122133633.jpgf2ea1ac75c562670531f6682cf3f36ce20201122133633.jpg

3,如果百度蜘蛛抓取一些隐私目录,真蜘蛛的情况下,怎么处理。

如果你确认是真的百度蜘蛛,百度可能是在抓取你的页面内部程序,考察你用的程序的版本,等,这些百度都会有分辨策略的,一般来讲,自己编写的程序,百度都会优先给予高评分,是这样的。我们为了防止蜘蛛抓取我们的隐私目录,我们一般都会用robots.txt进行屏蔽,记住:生效时间24小时左右。307eb94590dbc1ea6fcfcb86baff044920201122133633.jpg

4,如果蜘蛛抓取一些不存在的目录,一些不存在的文件,怎么办?

首先依然是判断是否是真蜘蛛,如果是真蜘蛛,百度抓取一些不存在的目录,是因为,你这个

另外还有一种情况,如果你把其他的站点301到你当前的dcec913d1112e849d6cb2e4457c3638320201122133633.jpg

5,蜘蛛抓取,301、304,、200、403、404、444状态码怎么办?

首先我们要明白,301状态码,就是重定向,如果你的顶级域名,例如daidaiseo.com-》www.daidaiseo.com当百度抓取daidaiseo.com上面的资源时,就会出现

而抓取304状态码是为什么那?如果你在日志上看到了304状态码,则表示,你的资源一直都没有变化,属于静态页面资源,304状态码,对于网站的影响比较小,一般来讲是做了百度cdn,有缓存,就容易出现304状态码,但只要你每天给百度提交资源,时时保持更新,就没事。

403是权限问题,禁止访问,是你

文章来源:代代

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值