搜索技术(Lucene+Compass)
文章平均质量分 77
michael200801
这个作者很懒,什么都没留下…
展开
-
中文垂直搜索引擎、行业搜索引擎大全
排名不分先后,肯定还有很多新的搜索引擎未能搜集齐全,欢迎补充。 此处主要针对新涌现的行业搜索、垂直搜索引擎。累计137家(不包括传统搜索及其分类搜索),这应该是目前最全面的整理结果。 行业搜索:搜索对象针对所在的行业,采用类似传统通用搜索引擎的分词索引技术,返回关键词最匹配的结果。 垂直搜索:搜索对象针对所在的行业,采用数据采集、数据挖掘、数据整转载 2007-12-08 10:26:00 · 3363 阅读 · 1 评论 -
垂直搜索领域还有多少机会?
一则最新的消息,百度前CTO刘建国创业进军生活搜索领域,他做的网站叫爱帮网,初看上去有点像百度地图搜索,除了可以搜索的种类更多一些以外。总体感觉不像一个搜索引擎,更像一个分类信息集散地。和前百度员工吴世春做的酷讯的运作思路有非常大的差别。目前来看爱帮网的信息可靠程度较高,哪些信息进入爱帮估计需要审核。这肯定不是垂直搜索的最佳实现。垂直搜索能不能做得更好?在我看来,有2个方面可能会有机会:第原创 2007-12-08 15:57:00 · 488 阅读 · 0 评论 -
什么是Spider程序
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该We转载 2007-12-08 16:58:00 · 1174 阅读 · 0 评论 -
深入 Lucene 索引机制
Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住转载 2007-12-08 10:43:00 · 691 阅读 · 0 评论