python 查找指定文件svn更新日志_如何分析蜘蛛日志?

58e080ddfce3d3a72634511d17918acb.png

蜘蛛日志分析

什么是蜘蛛日志?

所谓的蜘蛛日志就是当搜索引擎向服务器发送请求时产生的访问记录文件。

每个网站都会有日志文件,但是很多时候,日志文件只有在网站出现问题的时候才会被查阅。在seo方面,日志文件是更容易被忽略的一块,但是日志文件对于seo来说事非常重要的,我们可以在日志文件中获取各种信息并发现网站存在的一些问题。

日志可以去哪里拿到?

日志文件一般是在wwwlog或者log这样的文件夹里面可以下载。

分析主要用什么工具?

python和loghao

c675d0818b173bd30e2a4fe275292146.png

e930238da7ae37ef59d17f3b9e547f57.png

在日志中可以查看哪些数据?

1.客户端的IP地址

2.访问时间

3.查看http状态码

4.请求方式等等

查看蜘蛛日志常用的一些命令

1.cat access.log | grep Baiduspider 命令来获取百度蜘蛛的详细爬取记录

2.cat access.log | grep Baiduspider | wc -l 命令来统计百度蜘蛛的爬取次数

3.cat access.log | grep Baiduspider | grep "GET url" 来统计百度蜘蛛爬取某个页面的记录,命令中的url为页面的相对地址。

grep指令用于查找内容包含指定的范本样式的文件,如果发现某文件的内容符合所指定的范本样式,预设grep指令会把含有范本样式的那一列显示出来。若不指定任何文件名称,或是所给予的文件名为-,则grep指令会从标准输入设备读取数据。在分析日志的时候使用该工具,可以精确找出我们想看的日志内容,减少筛选时间,提升自身的工作效率。可以根据我们实际的场景,输入关键词来过滤日志。

蜘蛛日志有何作用?

1.通过对蜘蛛日志的分析,我们可以知道蜘蛛是否对站点进行了抓取,以及抓取是否成功,判断抓取资源是否被浪费,也可以判断我们的网站是否符合搜索引擎的抓取规范,找到抓取失败的原因。

2.如果某个页面被蜘蛛频繁地抓取,我们可以对这个页面做一些调整(比如布局),可以在页面中添加一些链接。但有些频繁地抓取是蜘蛛恶意的抓取,如果蜘蛛的访问频率过高,很可能会影响正常服务的运行,通过对蜘蛛日志的分析,可以发现恶意蜘蛛的足迹,然后可以限制蜘蛛的访问频率来保证服务器的稳定。

3.通过分析日志文件,我们可以发现蜘蛛的访问路径,有次我们可以优化我们的站点结构。

总结:利用日志我们可以挖掘到很多的信息,我们可以通过日志中的状态码来分析网站是否存在问题,如是否存在死链,页面失效等错误。我们通过日志可以发现用户对整站页面的访问次数、访问时间以及访问路径,通过这些可以分析用户的行为习惯。通过日志我们甚至可以防范恶意攻击,因此,日志分析在做网站的过程中是必不可少的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值