2007年11月
采用 10 个能够提高您的 UNIX® 命令行效率的好习惯——并在此过程中摆脱不良的使用模式。本文循序渐进地指导您学习几项用于命令行操作的技术,这些技术非常好,但是通常被忽略。了解常见错误和克服它们的方法,以便您能够确切了解为何值得采用这些 UNIX 习惯。阅读全文>
发表于 @ 2007年11月23日 13:22:00|评论(loading...)|编辑
了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕,为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢?以我的个人观点来谈一下。一、总体功能 一个专业的网络搜索引擎至少包含3部分即抓取、处理和搜索。下面是它们的一般功能: * 抓取:抓取(蜘蛛、爬虫、crawler、spider等)程序负责爬行特定网络(也可能是整个网络),把网络上的页面和其它需要的文件下载到本地来。目前的难点是web2.0的普及导致的js分析和身份认证等问题。 * 处理:处理(分类、信息抽取、数据挖掘、classify、information extraction、data mining等)程序对抓回来的页面进行分析,比如,对网站的内容进行阅读全文>
发表于 @ 2007年11月05日 14:58:00|评论(loading...)|编辑
一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引擎的效率成倍或大大地提高。在nutch中当然也是有cache的,只不过比较初级而已。 一.关于搜索引擎用户查询得出的结论:(1) 用户查询有很大比例的重复性。有30%到40%的用户查询是重复查询。(2) 大多数重复的用户查询会在较短的间隔时间被再次重复访问。(3) 大多数用户的查询是短查询,大约包含2-5个单词。(4) 用户一般只查看返回结果的前三个页面(前30个返回结果)。58%用户只查看第一个页面(TOP 10),15%用户查看第二个页面,不超过12%的用户会查看第三个页面以后的检索结果。(5) 关于用户查询差异程度。有比较大的查询程度,一百万个用户查询中大约63.7%的用户查询只出现过一次。另外一方面,集中的重复查询也非常集中:25个高频阅读全文>
发表于 @ 2007年11月02日 13:43:00|评论(loading...)|编辑