利用php抓取蜘蛛爬虫痕迹的示例代码

// 获取蜘蛛爬虫名或防采集
function isSpider(){
    $bots = array(
        'Google'    => 'googlebot',
        'Baidu'     => 'baiduspider',
        'Yahoo'     => 'yahoo slurp',
        'Soso'      => 'sosospider',
        'Msn'       => 'msnbot',
        'Altavista' => 'scooter ',
        'Sogou'     => 'sogou spider',
        'Yodao'     => 'yodaobot'
    );
    $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
    foreach ($bots as $k => $v) {
        if (strstr($v, $userAgent)) {
            return $k;
            break;
        }
    }
    return false;
}

// 获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
// 根据采集时HTTP_USER_AGENT是否为空来防止采集
// 抓蜘蛛爬虫
$spi  = isSpider();
if ($spi) {
    $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
    $file = 'robot.txt';
    $time = date('Y-m-d H:i:s',mktime());
    $handle = fopen($file,'a+');
    $PR = $_SERVER['REQUEST_URI'];
    fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
    fclose($handle);
}

 

转载于:https://www.cnblogs.com/chenjiacheng/p/6628354.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值