对搜索引擎来说,最重要的就是向用户提供数据检索,用英文说,叫query.但怎样才能使用户更快更好的检索到数据呢?这个就依赖于在用户搜索前和搜索中建立数据索引。 这里就简单的谈下几种数据索引策略,就是所谓的indexing strategy。
第一种方法很常见,就是Spider ,Google叫作crawl.就是根据文档相互之间的链接,定义获取关联的层次,获取数据来源。
第二种, Asset-Based Indexing, 就是数据源驱动性索引技术,这种技术一般由各种不同的搜索引擎及数据源Vendor提供Connector,这些Connector将数据index到搜索引擎中。当然对于structured的数据库,文本文件等,也可以是Customized code提供更合理的索引。
第三种, Virtual document , 在索引的时候,把来自多个数据源的关联数据合并成一个记录。Autonomy经常使用importURL, importFile来实现, Vivisimo则通过meta data来extracted, normalized, and combined Virtual document.