百度蜘蛛模拟

function imitateSpider($url){
	$ci = curl_init();   //初始化一个CURL的会话
	$user_agent = "Baiduspider+(+http://www.baidu.com/search/spider.htm)";//这里模拟的是百度蜘蛛
	//curl_setopt($ci,CURLOPT_PROXY,'74.125.71.99');
	curl_setopt($ci, CURLOPT_URL, $url);
	curl_setopt($ci,CURLOPT_HEADER, false);
	curl_setopt($ci, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ci,CURLOPT_REFERER, 'http://www.baidu.com');//这里写一个来源地址,可以写要抓的页面的首页
	curl_setopt($ci, CURLOPT_USERAGENT,$user_agent);
	$temp=curl_exec($ci);//执行CURL会话
	curl_close($ci);
	return $temp;
}
$url='www.google.com.hk';
$data=imitateSpider($url);
print_r($data);

baiduspider在爬取网页时,发送请求的User-Agent字段内容将更新。
目前的字段内容是
Baiduspider+(+http://www.baidu.com/search/spider.htm)
更换后的字段内容是
Mozilla/5.0 (compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

模拟蜘蛛的原理其实很简单,就是修改User-Agent
当然也可以修改成不同浏览器或者移动设备。对于蜘蛛模拟还可以做一样事情,那就是当蜘蛛过来的时候,呈现的内容是符合蜘蛛口味,比如一些关键词的堆砌(SEO优化),对于浏览器或移动设备访问(人),呈现的内容是另外一种正常的文章,为的是用户体验。
比如我用IE来模拟火狐访问,就是修改为火狐的信息
使用这个:navigator.userAgent 查看
Mozilla/5.0 (Windows NT 5.1; rv:14.0)Gecko/20100101 Firefox/14.0.1
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值