Shell脚本自动抓取蜘蛛404死链并提交到搜索引擎

脚本主要功能:每天定时分析网站前一天的 nginx 日志, 然后提取状态码为 404 并且 UA 为百度蜘蛛的抓取路径,并写入到网站根目录下的 death.txt 文件,用于提交百度死链。

#!/bin/bash

#Desc: Death Chain File Script

#Author: ZhangGe

#Blog: http://zhangge.net/5038.html

#Date: 2015-05-03

#初始化变量

#定义蜘蛛UA信息(默认是百度蜘蛛)

UA='+http://www.baidu.com/search/spider.html'

 

#前一天的日期(nginx日志)

DATE=`date +%Y-%m-%d -d "1 day ago"`

 

#定义日志路径

logfile=/www/wwwlogs/www.80rc.com_${DATE}.log

 

#定义死链文件存放路径

deathfile=/www/wwwroot/80rc/death.txt

 

#定义网站访问地址

website=http://www.80rc.com

 

#分析日志并保存死链数据

for url in `awk -v str="${UA}" '$9=="404" && $15~str {print $7}' ${logfile}`

do

        grep -q "$url" ${deathfile} || echo ${website}${url} >>${deathfile}

done

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值