搜索引擎爬虫程序一览表大全

转载 2007年10月16日 08:41:00

高强度爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
推广效果好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬虫,分别是雅虎中国和美国总部的爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。
sogou spider
搜狗爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google爬虫
算法优秀,多为访问有实际内容的页面
推广效果好。
Mediapartners-Google/2.1
google点击广告爬虫
特点未知
OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.comoutfoxbot@gmail.com

)
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫
作用未知


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
(欢迎补充资料)
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
(欢迎补充资料)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料)
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
据说是中搜爬虫。(欢迎补充资料)
iearthworm/1.0, iearthworm@yahoo.com.cniearthworm@yahoo.com.cn


TMCrawler
WebNews http.pl


RSS扫描器
/rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
/rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索扫描器
/rss.asp feedsky_spider http://www.feedsky.com
一款rss扫描器,有兴趣者进入此网站添加您的rss

 

搜索引擎与网络爬虫简述

一、搜索引擎          搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息展示给用户。 垂直搜索引擎则是针对某一行业的专业所搜引擎,是...
  • Daybreak1209
  • Daybreak1209
  • 2016年09月03日 20:51
  • 1251

搜索引擎爬虫工作原理-大揭秘(新手推荐看下)

搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即...
  • haolyj98
  • haolyj98
  • 2014年05月19日 14:54
  • 1102

网络爬虫结合搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,...
  • weiying7
  • weiying7
  • 2015年11月30日 16:06
  • 997

这就是搜索引擎(一)—引擎架构、网络爬虫、索引建立

这个系列的文章是一只试图通过产品角度出发去理解复杂庞大搜索引擎的汪写出来的,不足之处很多,欢迎广大技术、非技术同学阅读后指正错误,我们一起探讨共同进步。 本篇主要介绍搜索引擎的架构、网络爬虫、及索引建...
  • youdianmuye
  • youdianmuye
  • 2016年08月03日 18:20
  • 1736

利用Java实现搜索引擎爬虫技术

利用Java实现搜索引擎爬虫技术,此处实现一个简单的小功能,输入一个url,把该页面的图片批量抓取到本地。 package com.js.util; import java.io.BufferedR...
  • Dove_Knowledge
  • Dove_Knowledge
  • 2017年06月11日 10:11
  • 750

Python爬虫——自制简单的搜索引擎

自制简单的搜索引擎
  • jclian91
  • jclian91
  • 2017年08月18日 21:32
  • 224

Python分布式爬虫打造搜索引擎Scrapy

小技巧:Linux环境下,pycharm命令快速启动 : vim ~(用户主目录)/.bashrc 添加如下内容,完成后,source ~/.bashrc使配置文件刷新。 Navicat连接...
  • qq_33936481
  • qq_33936481
  • 2017年07月17日 18:56
  • 1567

判断IP是否为搜索引擎蜘蛛或爬虫

判断IP是否为搜索引擎蜘蛛或爬虫 主要是通过向DNS服务器发送反向域名解析查询,获取指定ip的相关域名信息来判断是否为相应搜索引擎或爬虫.  通过 dig 或者 host 工具皆可查询. Ex...
  • force_eagle
  • force_eagle
  • 2016年03月31日 12:36
  • 3218

小型搜索引擎之简单网络爬虫实现

(1) 功能最少要实现下载一个网站的功能(而不是一个网页的功能) (2) 要求实现布隆过滤器...
  • lzmy1993
  • lzmy1993
  • 2015年11月13日 14:56
  • 376

Python分布式爬虫必学框架Scrapy打造搜索引擎

Python分布式爬虫必学框架Scrapy打造搜索引擎 随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你的框架感觉一...
  • cadn_jueying
  • cadn_jueying
  • 2017年11月21日 19:35
  • 334
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎爬虫程序一览表大全
举报原因:
原因补充:

(最多只允许输入30个字)