网站日志是站长与搜索引擎对话的一个真实记录。因此读懂了网站日志,也就读懂了搜索引擎对网站的态度。
一、通过分析日志你能获得什么信息呢?
1、新站刚上线,看搜索引擎蜘蛛的抓取情况; 2、网站收录异常,被抜毛时,对比日志中蜘蛛的行为情况; 3、解决网站被K时,观察日志情况。
二、如何找到网站日志文件?
通过查找FTP根目录,一般为一个包含logs文件夹,不同的服务器可能日志文件命名不一样,但都会包含logs这个关键词,如下图:
三、如何打开网站日志文件?
下载,解压后,可以用文本编辑器打开,如果打开是乱码的话,可以用Editplus或dreamweaver等网页编辑器打开。
四、各大搜索引擎蜘蛛名称:
百度:baiduspider
Google=Googlebot
Msn:msnbot
yahoo:Slurp
yodao:YoudaoBot
sogou:Sogou+get+spider
360:360Spider
五:日志拆解
在日志里面搜索以上蜘蛛的名称就可以找到蜘蛛抓取的痕迹。
123.125.71.33 – - [19/Apr/2013:00:47:39 +0800] “GET /page/contact/contact.php HTTP/1.1″ 200 21978 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
具体分析如下:
123.125.71.33 访问IP
[19/Apr/2013:00:47:39 +0800] 访问时间与时区
GET /page/contact/contact.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/page/contact/contact.php 这个页面(GET表示服务器动作)
200 服务器响应状态码。
21978 表示抓取了21978个字节。
Mozilla/5.0 表示访问者使用火狐浏览器访问端信息
六、网站日志对seo有关于的信息,
不同的服务器或虚拟主机设置的日志记录内容不同。 有的如:200 0 33834 237 953 我们通过多看几条记录,观察规律,可以判断第三个数字代表字节数。 有的如:200 0 0或200 0 64 这是没有记录抓取字节数。注意:200 0 0和200 0 64 没代表什么问题。所谓200 0 64代表要被K的言论没有根据,一般的网站都有64代码。
在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。 304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。 404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
文章转自:www.ecpte.com
转载于:https://blog.51cto.com/ecpte/1204900