百度友好抓取2

二、提取核心词
  上述概念中,我们需要注意的几个词有:”百度蜘蛛”; ”在抓取”; ”N个页面”; ”M个页面”; ”都能打开并被成功抓取”。


三、连通率很低或为0时
我们抓住上述5个提取出的核心词进行分析。

(一)百度蜘蛛
1、谨防百度蜘蛛访问被操控或禁止
(1)由于百度蜘蛛的抓取量等原因对一些服务器造成压力,而这些网络商或网站运营方从某利益角度考虑,无意或有意的屏蔽百度蜘蛛,导致部分或全部百度蜘蛛ip获取不到网站数据;
(2)一些网站运营方或网络商对蜘蛛进行区别对待,比如国外蜘蛛ip、山东蜘蛛ip、北京蜘蛛ip等返回不同的数据,移花接木的手段层出不穷,而这个过程很可能造成百度蜘蛛的异常行为或异常状态返回;


所以我们首先要确保百度蜘蛛的访问有没有被操控或禁止。

2、预防措施
(1)完善联系方式获得百度站长工具消息提醒


  虽然一些网站异常情况会收到百度站长工具消息提醒,然而我想告诉大家不是所有自己站点异常都可以寄希望于消息提醒的,自己心里要知道连发邮件都可能出现收不到的情况,更何况各种复杂的异常情况,因此不要出问题了只会问“为什么站长工具没有给我发消息”。

(2)利用抓取异常和抓取频次工具观察抓取情况
↓抓取异常工具的网址异常情况


↓抓取频次工具的抓取统计情况




↓每个工具页面的右侧下方都有使用说明,如下


(3)抓取诊断工具是重中之重
 

为了保证网站对百度蜘蛛的稳定访问性能,日常我们需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否“抓取成功”就行了。有下面几步进行:
  第一步:下拉选择分”pc”、 ”移动”进行抓取,”pc”意味着一般意义上的电脑端访问诊断,”移动”则是如手机、平板等移动设备端访问诊断;
  第二步:网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试;
  第三步:抓取失败了,点击”抓取失败”查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错;
  
  第四步:抓取成功后,也不能说就万事大吉了,还要点击”抓取成功”进去注意:提交网址、抓取网址、抓取UA、网站ip、下载时长、头部信息(服务器返回状态码、gzip等相关信息)、网页源码是否都正常。


特别说明:有很多站长就光注意抓取成功,却不知网站ip可能并非自己的实际ip,被网络商搞到哪里去了都不知道,还可能每隔一段时间都变。当发现ip有问题,及时跟网络商沟通,并在网站ip旁点击“报错”按钮,百度会更新网站ip,但是切记不要ip变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。

(二)在抓取
  这是反映百度蜘蛛在抓取时的状态,百度的工具显示的数值肯定都是抓取后计算出来的数据,因此任何工具的连通率数据必定存在延迟性,另外这个计算过程也存在一定可能的错误,所以我们看到任何工具中关于连通率的数据,不要说“我网站用抓取诊断等工具检查访问情况都好好的,为什么连通率还是0”,因此除了上述建议的多抓取诊断测试外,自己可以加些监控网站连接状态的措施,笔者本人就曾经接收了不少关于网站连接不通的提醒。这时我会及时跟网络商沟通,然后及时用抓取诊断检查蜘蛛的情况。

 

(三)N个页面与M个页面
  这N、M个页面,可能百度蜘蛛很凑巧就赶上高峰的时候或者一些假死页面(执行时间较长,超过蜘蛛的耐心),那么M这个数值就会很低,统计概率的东西大家都懂的,那么这时网站的连通率依旧很低或为0。因此若连通率为0,我们还可以知道自己应该注意查看访问日志,及时清理死链,或者并发连接数增大,或者增加内存等等。
 

(四)都能打开并被成功抓取
这里主要注意DNS和空间的稳定性。

1、DNS的问题
参考当心 dns服务器不稳导致站点被屏

提醒大家注意的是现在不少云类ns服务器,这个过程中由于处理机制问题,包括回源障碍等等,较容易造成这个问题。另外国内大型服务商提供,比如你使用了dnspod,并不代表你的dns就应该是ok的。有的站长存在着对大型服务商的错误认识,如 “新网的dns就是不可靠的,我都用百度云加速”。我们要明白廉价的东西质量都有一定局限性,所以需要自己检查dns解析情况,具体上网找找相关资料或平台,看看dns解析出的ip以及解析延迟情况等等。

2、空间的稳定性
  很多人都会用超级ping了,这个不多说了。但是我还要告诉大家有下面两点需要注意:
  A、不良的网络商会对不同用户ip进行不同处理,自己可以用vpn等工具观察下不同地区ip段的网站访问情况与返回内容;
  B、空间的资源不足,内存、并发连接等等,当访问量很少的时候,自己察觉不出,需要提高访问量,增加连接时间。因此使用一些监控工具时,发现监控工具访问测试量巨大,或者被人刷流量时,你应该庆幸,而不是着急拒绝,因为你可以了解到自己的空间承压能力。
 

四、连通率问题处理完毕后
  如果你的网站索引由于连通率而非惩罚原因被清理了,处理完毕问题,可以在抓取频次工具中提交增加抓取频次的请求,将抓取频次增加到一定额度(建议自己查看工具中对抓取频次的说明后再根据网站实际情况调整),然后增加自己的网站数据更新频率与质量,加强与百度的数据沟通(如url提交、sitemap等等),很快就能恢复。相关工具展示如下(每个工具页面的右侧下方都有相关说明链接,可以点击去了解使用注意事项):

1、抓取频次中的频次调整工具:


2、链接提交工具:


3、链接提交工具中的主动推送、sitemap、手动提交方式:

 

https站点如何做才能对百度友好

2015年5月25日,百度站长平台发布公告,宣布全面放开对https站点的收录,https站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的https站点可以关闭http版,或者将http页面跳转到对应的https页面。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

百度搜索引擎目前不主动抓取https网页,导致大部分https网页无法收录。但是如果网站一定要使用https加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:
1,为需要被百度搜索引擎收录的https页面制作http可访问版。

2,通过user-agent判断来访者,将Baiduspider定向到http页面,普通用户通过百度搜索引擎访问该页面时,通过301重定向至相应的https页面。如图所示,上图为百度收录的http版本,下图为用户点击后会自动跳入https版本。


3,http版本不是只为首页制作,其它重要页面也需要制作http版本,且互相链接,切不要出现这种情况:首页http页面上的链接依然链向https页面,导致Baiduspider无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.abc.com/ 链向https://www.adc.com/bbs/

4,可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在https上,可以让Baiduspider直接抓取的内容都放置在二级域名上。

 

 

站点切换https不会对流量产生负面影响问:对于http和https,Baiduspider会不会区别对待?
答:不会区别对待。说得再全整专业一些:Baiduspider在对于http和https站点的调度和解析方面没有任何区别。至于建索引库,年初的时候百度进行过升级,目前对https站点也是全力支持的。

问:Baiduspider可以抓取https网站吗?站点https以后应该做些什么?
答:在抓取方面,Baiduspider完全支持https链接的抓取。站长需要注意的一点是要保证http链接到https链接良好的重定向(使用301或302),这样百度可以做到无缝切换。另外可以使用链接提交工具提交https链接,尽快通知百度。

问:站点切换https以后,新产生的https页面,百度会将其视为新页面重新收录?重新计算排名?
答:不是的,不涉及重新收录的问题。

问:https以后可以使用改版工具向百度提交http与https的对应关系吗?
答:http站和https站会被百度视为同一个站点,不属于改版,不适用改版工具。

问:https以后,排序有可能发生什么变化?
答:在rank方面,现在对两种链接无区别对待,从安全性考虑,以后可能会优待https的链接。

 

 

禁止百度保留快照的代码:noarchive

很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。上周恰好又有人问到这个问题,特意进行说明。

 要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:<meta name="robots" content="noarchive">

要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:<meta name="Baiduspider" content="noarchive">

注:此标记只是禁止百度显示该网页的快照,并不会影响网页建入索引,同时垃圾网页也不可能依靠此手段逃避百度的判罚。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值