网络爬虫
iteye_14258
这个作者很懒,什么都没留下…
展开
-
Heritrix
Heritrix项目介绍Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以...原创 2008-08-10 10:33:39 · 197 阅读 · 0 评论 -
Heritrix 爬虫与Nutch 爬虫
在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality ...原创 2008-08-10 10:58:37 · 149 阅读 · 0 评论 -
mp3爬虫
什么是mp3爬虫(mp3spider)?mp3爬虫(mp3spider)是一个用来从mp3.baidu.com实现mp3批量下载的一个脚本。由于baidu的网页中的HTML标签可能随时改变,所以这我不能保证这个脚本随时都能够工作,我只能尽量确定它是可用的。下载怎么使用?mp3spider只能够在Linux下工作(Unix可能能用,不过我没有尝试过). 步骤:1. 下载脚本wget h...原创 2008-08-10 11:20:38 · 275 阅读 · 0 评论