1.概念与原理
网络爬虫(又称为网络蜘蛛、网络机器人,在FOAF社区中更经常称为网页追逐者)是按照一定的规则自动抓取万维网信息的程序或脚本。另外一些不经常使用的名字还有写蚁、自动索引、模拟程序或者蠕虫。它的定义有广义和狭义之分。狭义上指遵循标准的HTTP协议,利用超链接和Web文档检索方法遍历万维网的软件程序;而广义上则凡是连循HTTP协议检索Web文档的软件都称为网络爬虫。
网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎抓取系统的重要组成部分。整个搜索引擎系统主要包含4个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息搜索模块的核心。
如果把互联网比作一个大昆虫织的网,网络爬虫就是在这张大网上爬来爬去的爬虫。网络爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。
网络爬虫可以使用多线程技术,以具备更强大的抓取能力。
可以通过使用DNSCache技术减少爬虫对DNS的访问频率,避免DNS成为网络瓶颈,提高抓取速度。
通过Java技术,以多线程方式可以大大增强爬虫抓取网页的效率。对于搜索引擎来说要想通过网络爬虫搜索到整个网络的页面是几乎不可能的,主前
现有的手段无法搜索到所有网站的网页,容量再大的搜索引擎系
页,这是一个技术瓶预问题;
是存储问题和技术处理问题,比如
100KB(其中包含图片),目前根据非官方的统计数据互联网
庞大的网页再乘以网页的大小,对于任何搜索引擎来说都是 个海量的数
网络爬虫还要完成信息提取任务,从抓取的网页中提取新围
对于MP3、图片、Flash等各种不同内容,要实现自动识别、自动分示员
MP3文件要包含的文件大小、下载速度等属性