华为抓取错误日志在哪里_大仙seo:网站日志数据分析教程

9debc17b4ecfc27960938c76ce0a5b3b.png

网站日志的数据分析主要是使用相关工具进行,工具类型也有很多。

网页版可以用拉格好,桌面版可以用爱站或者光年,也可以使用shell分析日志。。。

分析日志的作用有很多,可以概括几点:

1.了解蜘蛛对页面的抓取情况,合理分配网站内链,优化抓取路径;

2.统计栏目页面的流量数据情况,对其做相应的策略调整(例如数据下降,可以分析原因,对另外一个栏目页面做AB测试进行观察等等);

3.提取出404页面,提交给百度进行处理;

4.如果是网站被黑,可以分析日志查看网站操作记录,以及找出假的百度蜘蛛IP等;

将日志文件下载至本地,我这里是宝塔,一般在www根目录可以找到日志文件。

使用网页版功能有限,只能看出来蜘蛛的抓取数量和返回代码情况,如图:

5e88bdde2657acaa77a67b8259133f42.png

关于蜘蛛数量那里应该都看得懂,顺便解释下上面显示的低权重IP和权重IP(大神略过,据说科普)。

据说,百度创始以来,对蜘蛛是有分类的,有的蜘蛛专门抓取图片,有的专门抓取视频,有的专门抓取内容。。。。

这些ip统称为低权重ip(我也不知道哪里听来的),专门抓取新站或者是低质量的页面,新站在此期间应该这个类型123.125.71.*的ip,来的频率会灰常多。

123.125.71.95
123.125.71.97
123.125.71.117
123.125.71.71
123.125.71.106

那如果是一个老网站,这个频率的ip突然增加,那就要注意了,很有可能在被K或是降权的边缘。。。。

这个ip上面显示隔日快照,意思就是被他抓取过的页面,不出意外第二天都会被收录,或者快照会有更新。

220.181.108.95

这些ip称为所谓的“高权重ip”,即220.181.108.*,被他们抓取过的页面,收录速度和更新速度都会很快。

220.181.108.75
220.181.108.92
220.181.108.91
220.181.108.86
220.181.108.89
220.181.108.94
220.181.108.97
220.181.108.80
220.181.108.77
220.181.108.83

好的,ip段普及完了。。。。

在来看看左侧,可以看到一大串代码段。

ac32ac1c63470eb3f89a3407b9d106db.png

其实我们截取一个完整的字段是这样的:

123.125.71.12 - - [07/May/2019:11:21:56 +0800] 'GET /gzjysc/83.html HTTP/1.1' 200 8274 '-' 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'

一个个来看,都是什么意思。。。。

123.125.71.12:访问的ip;

07/May/2019:11:21:56 +0800:访问的时间段;

GET /gzjysc/83.html:访问的URL;

HTTP/1.1:网站的请求协议;

200:网站返回状态码;

Baiduspider/2.0; +http://www.baidu.com/search/spider.html:表示这是一个真实的百度蜘蛛;

ok,基础数据概念解释就到这里,接下来看看从日志文件里能得到哪些信息。

使用光年日志分析工具可以得出以下信息:

蜘蛛抓取量占比,百度抓取最多,其次是搜狗,发现这里居然没有360的蜘蛛,去设置里添加个360 Spider重新分析就可以了。

e5ef3c170cc0565827e31244da8d4ccf.png

目录最多的抓取数量显示,每个蜘蛛抓取的目录次数是不同的,可以看到百度对/spmn/目录抓取最多,其实这个也不意外。。。因为这个目录页面的关键词排名最好!

043b2751d63a5439b82a2ed78fa26c01.png

d1f36311258bcd8baaee72fe71f05f33.png

另外还可以看看404页面,把这些404的url放在一个txt文档里,取名silian,上传到根目录提交到百度站长平台即可。

b5834636f6099047fa565f23ee9fb4e3.png

7a7fde5dcc5d832e341c7488d42391e5.png

其它的数据可以自己看看!

以上的方法对于分析普通的小企业站日志已经足够了,金花日志工具可以满足大部分的需求。

那对于一些日志文件比较大,不适合用工具的可以使用shell分析网站日志(以下纯属装X,可以略过)。

首先是打开日志文件。

9616a7b3569c411efc1cc919be68fd93.png

分析蜘蛛抓取最多的页面:

cat your.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

ff6e8895170f3042bbae4ba476b9aa7f.png

可以看出,还是/spmn这个页面抓取的最多。。。。接下来才是首页。

找了些非200状态码的页面url:

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr

929461af2d9968ee70297ae54015eb1e.png

可以看到有哪些404、304等等状态的页面。。。。特别是找出404页面,根据上述提到的方法进行解决。

突然想到鲁迅先生说的:数据本身是没卵用的,分析数据,对数据的使用才是价值所在。

注:本文来源《网站日志数据分析教程》,转载请注明出处!更多seo实战技巧尽在公众号——大仙的小黑屋。个人微信:gz90hudong.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值