grep是一个很强大的命令。这里我们主要来讲使用grep命令来分析网站日志的方法和技巧。
1、合并网站日志
使用ls查看下待合并的日志
合并网站日志
2.拆分我们想要的日志文件
比如拆分百度蜘蛛的日志文件
比如拆分404错误日志
还可以同时拆分百度和谷歌的蜘蛛。
这里我们使用的是egrep来实现这一功能。
3、我们还可以结合awk命令来格式话我们的日志文件
awk倾向于分析一行中的字段,我们需要来看一下网站的日志格式
我们截取百度蜘蛛访问的来源IP、时间、抓取的URL、返回码和抓取的大小。
这里使用[tab]是为了导入excel文件中更加方便你的分析。更新:可以不用[tab]来格式化日志,直接选择空格作为分隔符就好。
如何使用命令删选不重复的URL的,由于很多日志的参数设置不一样,具体到详细命令命令会有所不同
首先我们还是要知道蜘蛛抓取你的URL位置在你的日志记录行的位置,
由于每条记录的时间戳等不一样,我们不能直接使用sort命令去重,再者我们需要的只是蜘蛛抓取的URL这个参数,那么我们就直接拎出$7这个URL参数后再去重。
如我们要计算蜘蛛抓取的不重复URL个数
要把蜘蛛抓取的不重复URL导出来,就可以去掉wc后加上>baiduspiderurl.txt等就可以了
我们还可以在导出的时候自动给每个URL加上抓取的次数