2007年01月
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。Heritrix的主页是http://crawler.archive.org Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI Heritrix主要有三大部件:范围部件,边阅读全文>
发表于 @ 2007年01月18日 13:29:00|评论(loading...)|编辑
比如用自带的parseHtml可以提取出html的信息,可是里面的垃圾太多了,怎样去提取出想要的信息呢?
比如新浪一篇新闻,里面除了新闻正文外,还有一起和这个新闻没有联系信息,侧面的信息,顶上链接,底下的链接等,在nutch的一个网页的pareData中把这个链接也包含进去了,对网页查询等有不好的影响,
请问一个用什么方法可以解决一下,或一些
阅读全文>
发表于 @ 2007年01月15日 13:06:00|评论(loading...)|编辑
最近遇到了头疼的事情,就是开发垂直门户的分布式搜索引擎系统时,发现有四种不同应用的分布式搜索引擎:
1.分布式元搜索:
拥有多个单个的搜索引擎, 中心搜索引擎是利用这些分布的单个的搜索引擎的结果进行撮合得到完整的结果.
这样的设计方案要求各个单元的搜索引擎拥有相同的排序算法和基本相同的数据输出结构,以便由中心搜索进行整理。
2.散列分布搜索引擎
根据Query对索引服务器和文档服务器进行散列,做到对于任何的索引词能够准确的定位到具体的索引服务器并从而定位到正确的文档服务器。
3.Peer 2 peer 搜索引擎
利用集中方式的索引,配合分布于世界各地的单个的计算机形成的文件源,阅读全文>
发表于 @ 2007年01月15日 13:06:00|评论(loading...)|编辑
Linux必学的60个命令
Linux提供了大量的命令,利用它可以有效地完成大量的工作,如磁盘操作、文件存取、目录操作、进程管理、文件权限设定等。所以,在Linux系统上工作离不开使用系统提供的命令。要想真正理解Linux系统,就必须从Linux命令学起,通过基础的命令学习可以进一步理解Linux系统。
不同Linux发行版的命令数量不一样,但Linux发行版本最少的命令也有200多个。这里笔者把比较重要和使用频率最多的命令,按照它们在系统中的作用分成下面六个部分一一介绍。
◆ 安装和登录命令:login、shutdown、halt、reboot、install、mount、umount、chsh、exit、last;
◆ 文件处理命令:file、mkdir、grep、dd、find、mv、ls、diff、cat、ln;
◆ 系统管理相关命令:df、top、free、quota、at、lp、adduser、groupadd、kill、crontab;
◆ 网络操作命令:ifconfig、ip、ping、netstat、telnet、ftp、rout阅读全文>
发表于 @ 2007年01月13日 11:25:00|评论(loading...)|编辑
Linux必学的60个命令 -文件操作
Linux 系统信息存放在文件里,文件与普通的公务文件类似。每个文件都有自己的名字、内容、存放地址及其它一些管理信息,如文件的用户、文件的大小等。文件可以是一封信、一个通讯录,或者是程序的源语句、程序的数据,甚至可以包括可执行的程序和其它非正文内容。 Linux文件系统具有良好的结构,系统提供了很多文件处理程序。这里主要介绍常用的文件处理命令。
file
1.作用 件内容判断文件类型,使用权限是所有用户。
2.格式
file通过探测文
file [options] 文件名
3.[options]主要参数阅读全文>
发表于 @ 2007年01月13日 11:24:00|评论(loading...)|编辑