吴楚狂生

征服自己!

Heritrix-- 开源crawler

    是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。   IA期望他们的crawler包含以下几种:   宽带爬虫:...

2007-01-18 13:29:00

阅读数:3748

评论数:1

开源crawler

 Heritrix   点击次数:3822Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 WebSPHINX   点击次数:2205WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。...

2007-01-16 22:05:00

阅读数:1731

评论数:0

开发垂直门户的分布式搜索引擎系统

最近遇到了头疼的事情,就是开发垂直门户的分布式搜索引擎系统...

2007-01-15 13:06:00

阅读数:2443

评论数:0

nutch怎样过滤spam信息。

主  题:   ...

2007-01-15 13:06:00

阅读数:5068

评论数:0

Linux必学的60个命令(1)-安装与登陆

Linux必学的60个命令Linux提供了大量的命令,利用它可以有效地完成大量的工作,如磁盘操作、文件存取、目录操作、进程管理、文件权限设定等。所以,在Linux系 统上工作离不开使用系统提供的命令。要想真正理解Linux系统,就必须从Linux命令学起,通过基础的命令学习可以进一步理解Lin...

2007-01-13 11:25:00

阅读数:921

评论数:0

Linux必学的60个命令(2)-文件处理

Linux必学的60个命令 -文件操作 Linux 系统信息存放在文件里,文件与普通的公务文件类似。每个文件都有自己的名字、内容、存放地址及其它一些管理信息,如文件的用户、文件的大小等。文件可以是 一封信、一个通讯录,或者是程序的源语句、程序的数据,甚至可以包括可执行的程序和其它非正文内容。 Li...

2007-01-13 11:24:00

阅读数:976

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭