搜索引擎spider抓取之SEO数据分析

搜索引擎Spider对网站的抓取情况,应该是最值得SEO人员研究的内容。但是很多SEO人员面对已经在日志中提取出来的搜索引擎抓取记录,并不知道需要分析了什么。这里东莞网站推广简单讨论一下Spider对网站的抓取情况都有哪些方面得分析的,以及分析出的结果是如何指导SEO的工作。


 Spider的抓取数据可以分析:Spider对整个网站的抓取频率、Spider对重要页面的抓取频率、Spider对网站内容的抓取分布情况、Spider对各种类型网页的抓取情况、Spider对网站的抓取状态码情况等。 通过分析Spider对整个网站的抓取频率的趋势,可以简单了解网站在搜索引擎眼中的质量。如果网站没有进行过大幅度的变动,并且内容正常更新,


搜索引擎的抓取频率却逐渐或突然大幅度降低,不是网站运行出现错误,就是搜索引擎认为网站质量出现了问题;如果搜索引擎的抓取频率突然增大,可能是网站有404之类的页面引起了Spider的集中重复抓取;如果搜索引擎的抓取频率逐渐增大,可能是随着网站内容的逐渐增多,权重的逐渐积累,而获得的正常抓取。持平和平缓的变动不足为奇,如果出现大幅度的变动,就要引起足够的重视了。


通过分析Spider对重要页面的抓取规律,可以辅助网页内容更新频率的调整。一般搜索引擎Spider会对站内的重要页面进行高频度的抓取,这类页面一般不会是内容页,而是首页、列表页或者拥有大量外链的专题页。 在网站中有很多种此类抓取频率非常大的页面,比如曾庆平SEO前面所说的网站首页、目录页和专题页。


在网站中往往还会有其他更多类型的聚合页同样有着比较大的抓取频率。尤其是网站的首页,很多网站的首页每天都会得到搜索引擎成千上万次的抓取,但是不少网站首页上更新的链接很少,有些浪费了首页本身权重所带来的Spider高抓取频率。在不影响SEO关键词密度和布局的前提下,SEO人员可以允分利用这部分资源,来使网站内所有的新内容都被搜索引擎及时发现,也减少搜索引擎的无效抓取。 


虽然现在通过百度站长平台的sitemap工具(Jack:www.woan520.com),可以直接把站内的URL提交给百度,并不需要太过担心百度发现不了网站内新内容的问题,但是现在也有部分网站是没有sitemap提交权限的,并且这种通过页面发现链接的形式还会带有一定的权值传递。众所周知,网页的收录与否,除取决于网页内容的质量外,与网页所获得的外链和网页的权重也是有关系的,所以以上分析和改进还是值得进行的。 



分析Spider对网站内容的抓取分布情况。每个网站都会分出一些不同的频道,可能大家感觉在网站内链和外链的建设中并没有特别的偏向,或者为某个频道做了很多链接,就认为该频通应该会得到搜索引擎的青睐,但是事实可能不是这样的。Spider对网站内容抓取分布情况的分析一般会结合网站的收录数据,分析网站各频道内容的更新量、搜索引擎收录量和Spider对各频道的每日抓取量是否成正比。 


如果某个频道的搜索引擎收录不佳,首先就要分析搜索引擎对该频道的抓取是否正常。如分析百度对网站各频道的抓取情况,可以使用《光年SEO日志分析系统》先把百度的抓取记录提取出来,然后使用该工具对提取出来的日志进行分析。在该工具生成的报表中有一个“目录抓取”的报表,可以轻松获得百度对网站目录级别的抓取。也可以通过该工具的日志拆分功能,拆分出百度对网站每个频道的抓取情况,然后进行详细分析。



 通过这种分析可以很轻松地了解到百度对网站内各频道的抓取情况,会经常发现收录不佳的频道得到的抓取次数也很少,或者会发现百度对该频道内容页的抓取情况不佳。此时就需要调整网站内的链接分布,或者使用nofollow标签来弱化百度对不重要频道的抓取,而引导百度多抓取指定的频道。如果搜索引擎的收录并没有异常,百度对内容的抓取分布情况也是值得分析的,研究百度抓取量大和抓取量小的频道之间的差别,从而了解百度Spider的喜好,进而对网站结构或者内容建设方法进行改进。 分析Spider对站内各类页面的抓取情况。不同网站都有着自己不同的网页类型,这里东莞网站推广进行举例说明。在大众网站中一般会有首页、目录页、文章页,目录页和文章页可能会有分页,但是经过分析百度Spider的抓取记录后,可能会发现百度Spider几乎不怎么抓取分页,不论是列表分页还是文章分页。


如果网站更新量比较大,每天更新的内容会在列表新增很多分页,就可能造成百度不能及时发现网站新内容情况:如果网站的文章的内容量都比较大,并且分页也是经过精心设计的,每个分页都有一个核心的小主题,这种文章的分页也是有收录价值的。为了解决这两个问题,可以在网站上建立不进行分页的“最新内容”页,然后引导百度Spider频繁抓取该页面;把文章的分页的URL格式和文章首页的URL统一,并在列表页或上述“最新内容”页进行推荐。先保证百度发现这些页面才能进一步促进百度对有价值分页的抓取和收录。 



分析Spider对网站的抓取状态码情况。除了上面所提到的注意网站异常的状态码,还应该留意Spider对网站的抓取记录中是否还有其他不常见的状态码出现。比如因为周末没有人更新网站,所以网站首页内容全天是无变化的,造成了百度Spider抓取全部返回了304状态码。这样一段时间后百度Spider就会发现网站的首页更新规律了,以后即使周末有更新内容也不会得到百度的及时抓取和收录了。所以,虽然这不会对网站的排名造成直接的负面影响,但是如果以后整个周末百度Spider都不来抓取网站,以至于以后在这个时间段内发布新内容都不再被及时收录,那多少都有点悲催了。面对这种情况,SEO人员一般都会策划根据Spider抓取频率在相应的时间对页面做出一定的更新,以保证搜索引擎Spider持续地抓取网站。根据具体情况或加大内容发布量,或为页面增加最新内容的调用,或为页面增加评论类的动态内容等。


当然诸如大部分内容页返回304是很正常,需要具体情况具体分析,并没有必要单纯为避开对Spider返回304状态码而刻意改变网页内容。 曾庆平SEO在分析日志的过程中,所有的状态码都有可能会发现,都需要根据状态码的实际含义及网站的实际状态进行分析,从而考虑是否需要改变现状,以保证网站在搜索引擎上的良好表现。 以上只是东莞网站推广简单讨论了一下日志分析中常见的分析目标、方法及对SEO的指导性作用,在网站日志中还可以分析出很多问题,当网站遇到搜索引擎相关的问题时,也应该优先分析搜索引擎对网站的抓取日志。



网站运营过程中可能会遇到很多千奇百怪的事,SEO人员就需要多遇问题,然后进行分析、思考和解决,从而提升自己。如果有能力,可以开发一个小程序监控网站日志,以方便分析每天搜索引擎对网站的抓取记录中的常规数据:Spider总抓取URL的条数、Spider抓取唯一URL的条数、各种主要状态码出现的次数、网站主要页面的抓取次数、站内各类页面的抓取次数等。同流量分析一样,可能单天的数据所能说明的问题有限,长期监控并做成趋势图,就可以及时发现搜索引擎Spider对网站抓取过程中的很多问题了。当然这种监控只是辅助及时发现问题,具体的问题分析还是需要提取到相关记录,进行逐层细分分析。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31559398/viewspace-2285210/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31559398/viewspace-2285210/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值