自从【明月使用 CDN 开始禁止搜索引擎爬虫回源了】一文发布以来,明月无论是用网站卫士还是上海云盾 CDN 都不再开启搜索引擎回源了,原因也都在此文里说过了,就是因为安全考虑,现在仿冒搜索引擎爬虫的成本真的是太低了,谷歌爬虫还好一点儿,国内百度爬虫仿冒简直就是肆无忌惮了都,任何一个爬虫都敢仿冒百度爬虫的 UA,肆意妄为,回源除了招蜂引蝶几乎已经毫无意义了!
有图有真相,目前上海云盾上的搜索引擎回源是 OFF 状态哦!
网站卫士的依旧是关闭状态
至少最近一周以来,明月的博客在百度上的收录、索引、SiteMap 提交甚至快收都是正常的,在百度站长平台“抓取诊断”里爬虫抓取的节点已经更新为上海云盾 CDN 的节点 IP 了:
利用【推荐个站长必备的浏览器扩展:网站 IP 信息查询】一文推荐的扩展查看 IP 结果也跟抓取节点是吻合的:
至于百度的索引变化,反正明月是看不出来有啥不正常的:
甚至可以说是毫无影响了:所谓的使用 CDN 影响搜索引擎爬虫抓取的说法基本可以认定是道听途说、以讹传讹毫无事实根据了!
如果有细心的站长可以仔细的对比一下那些说“使用 CDN 影响搜索引擎爬虫抓取的”的文章要不是很早期(至少几年甚至十几年前)的文章,要不就是没图没真相的瞎扯淡。最近谷歌公布说互联网上 60%的内容都是重复的,说的就是这些吧!
其实,抛开搜索引擎官方的说法不说,单就搜索引擎技术这十几二十年的技术迭代更新,如果连 CDN 节点抓取都解决不了或者造成混乱,那这个搜索引擎爬虫的智商绝对是“智商盆地”了,其搜索体验估计也是惨不忍睹了。所以不要再去相信这些重复的、无用的垃圾说法了,就让搜索引擎爬虫去节点抓取就是了,要相信科学嘛!当然,凡事都会有意外,可能也有站长会说自己的站点用了 CDN 后不抓取或者收录少了啥的,这些情况只能说是个例了,要明月分析就是如下几个因素导致的,跟 CDN 关系真不大:
1、新站(上线时间一年以内的)
2、站点内容质量偏低,原创高质量内容匮乏。
3、采集站、内容不合规站。
4、站点服务器不稳定,返回 502 太多。
5、站点域名被 K 过或者降权过。
可以说跟你用不用 CDN 真的没有关系的,建议就在上面这五条里找原因就是了!