网络蜘蛛(机器人)Nutch,Heritrix,jspider都尝试着用了一下(娱乐水平的)呵呵,下面我说一些很低级 (因为压根儿,我也没仔细看)的比较:
        1.Nutch是Lucene的子项目,所以它好像遍历网页时,同时也把网页索引了,所以看不到真实的网页信息。不过配起来也不咋麻烦,看这个 Nutch 0.9的使用就可配好了。
       2.Heritrix,我更没什么资格说了,常识了三次都失败了,主要是因为Heritrix,Nutch在windows下比较麻烦(本来人家就是较为针对Unix,Linux的),在加上它的名字不好读 ,呵呵
      3.jspider,呵呵那个叫简单啊,冲到bin目录下,一个: jspider http://localhost:8080 download 命令就可以下载这个网站了,爽!!!在加上它有Jspider用户使用手册(JSpider   User Manual),pdf的,那就更爽了,虽然都是英文的,但是极易读懂,初三水平应该就可以了。这是它的官方地址: http://j-spider.sourceforge.net/,我上传的jspider-0-5-0-doc-user.pdf则是,我正在阅读的那个,加了部分目录,画了几个道道,自己看着方便而已,希望没有犯大错误。