搜索引擎爬虫一览表

高强度爬虫程序 Baiduspider+(+http://www.baidu.com/search/spider.htm") 百度爬虫   高强度爬虫,有时会从多个IP地址启动多个爬虫程序!由于算法问题,百度爬虫对相同页面会多次发出请求。

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html") Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp") 雅虎爬虫,分别是雅虎中国和美国总部的爬虫

  比较规范的爬虫,看参考其网址,可以设定爬虫访问间隔。

iaskspider/2.0(+http://iask.com/help/help_index.html") Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0) 新浪爱问爬虫   算法差,大量扫描无实际意义的页面,对动态链接网站负担很大

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm") Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.ht") 搜狗爬虫   算法差,大量扫描无实际意义的页面,对动态链接网站负担很大

中等强度爬虫程序

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html") Google爬虫   算法优秀,多为访问有实际内容的页面

Mediapartners-Google/2.1 Google AdSense广告内容匹配爬虫,对网页收录有一定辅助作用。

Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/"; ) 网易爬虫  其搜索算法需要改进

ia_archiver Alexa排名爬虫   用于检测网站是否做了alexa排名的作弊。

Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html")  美国斯坦福大学的一个学生研究项目

其他搜索引擎的爬虫

msnbot/1.0 (+http://search.msn.com/msnbot.htm") MSN爬虫

msnbot-media/1.0 (+http://search.msn.com/msnbot.htm") MSN多媒体爬虫

Mozilla/3.0 (compatible; Indy Library) Indy Library本来是个开源程序库,但後来被spam bots冒用。   抓取强度:各服务器上不一定

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0) Qihoo的爬虫

Gigabot Gigabot/2.0 (http://www.gigablast.com/spider.html") Gigabot搜索引擎爬虫。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值