搜索引擎爬虫程序一览表大全

转载 2007年10月16日 08:41:00

高强度爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
推广效果好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬虫,分别是雅虎中国和美国总部的爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。
sogou spider
搜狗爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google爬虫
算法优秀,多为访问有实际内容的页面
推广效果好。
Mediapartners-Google/2.1
google点击广告爬虫
特点未知
OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.comoutfoxbot@gmail.com

)
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫
作用未知


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
(欢迎补充资料)
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
(欢迎补充资料)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料)
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
据说是中搜爬虫。(欢迎补充资料)
iearthworm/1.0, iearthworm@yahoo.com.cniearthworm@yahoo.com.cn


TMCrawler
WebNews http.pl


RSS扫描器
/rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
/rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索扫描器
/rss.asp feedsky_spider http://www.feedsky.com
一款rss扫描器,有兴趣者进入此网站添加您的rss

 

小型搜索引擎之简单网络爬虫实现

(1) 功能最少要实现下载一个网站的功能(而不是一个网页的功能) (2) 要求实现布隆过滤器...
  • lzmy1993
  • lzmy1993
  • 2015年11月13日 14:56
  • 470

搜索引擎爬虫蜘蛛的User-Agent收集

百度爬虫     * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫     * Mozilla/5.0 (c...
  • Yelbosh
  • Yelbosh
  • 2014年03月19日 15:05
  • 4241

网络爬虫(spider)程序的编程实现

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Go...
  • bigtang5
  • bigtang5
  • 2007年09月18日 12:20
  • 7822

搜索引擎爬虫蜘蛛的UserAgent收集

百度爬虫     * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫     * Mozilla/5.0 (c...
  • myweishanli
  • myweishanli
  • 2013年10月09日 23:09
  • 1945

中文搜索引擎提交大全,让您的网站被搜索引擎搜到

网站建设好了?恭喜你,您的电子商务的真正开始啦。网站建设完毕后,我们接下来,让百度,google都知道你的网站。通过下面网址登陆你的网站:(目前有一些批量提交的工具,但手工提交是最好的选择,而且只有几...
  • adollman
  • adollman
  • 2009年05月22日 14:32
  • 211

搜索引擎爬虫的实现

论文:搜索引擎爬虫的实现  转载自:http://www.nowamagic.net/webdesign/webdesign_NetworkCrawler.php 万维网是一个通过HTML格式...
  • hi_software
  • hi_software
  • 2012年06月05日 18:06
  • 1730

Google搜索引擎使用技巧大全

Google搜索引擎使用技巧大全  一,GOOGLE简介   Google(www.google.com)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年...
  • itjourney
  • itjourney
  • 2005年08月17日 15:39
  • 1489

世界上最著名的220个搜索引擎大全

        Web2.0 的冬天快要来临了? 敏思博客的倒闭和中搜即将发生大裁员似乎给了我们一些暗示......,不过这并不妨碍搜索引擎如雨后春笋般的涌现,下面是我收集的世界上最著名的220最著名...
  • accesine960
  • accesine960
  • 2006年08月02日 22:25
  • 8285

中文垂直搜索引擎、行业搜索引擎大全(最新计137家) (转贴)

 原文作者不详。排名不分先后,肯定还有很多新的搜索引擎未能搜集齐全,欢迎补充。 此处主要针对新涌现的行业搜索、垂直搜索引擎。累计137家(不包括传统搜索及其分类搜索),这应该是目前最全面的整理结果。行...
  • chengg0769
  • chengg0769
  • 2007年08月24日 13:51
  • 5082

搜索引擎爬虫一览表

高强度爬虫程序Baiduspider+(+http://www.baidu.com/search/spider.htm") 百度爬虫   高强度爬虫,有时会从多个IP地址启动多个爬虫程序!由于算法问题...
  • apache6
  • apache6
  • 2008年06月26日 12:57
  • 1203
收藏助手
不良信息举报
您举报文章:搜索引擎爬虫程序一览表大全
举报原因:
原因补充:

(最多只允许输入30个字)