Indexing Strategy

对搜索引擎来说,最重要的就是向用户提供数据检索,用英文说,叫query.但怎样才能使用户更快更好的检索到数据呢?这个就依赖于在用户搜索前和搜索中建立数据索引。 这里就简单的谈下几种数据索引策略,就是所谓的indexing strategy。

 

第一种方法很常见,就是Spider ,Google叫作crawl.就是根据文档相互之间的链接,定义获取关联的层次,获取数据来源。

第二种, Asset-Based Indexing, 就是数据源驱动性索引技术,这种技术一般由各种不同的搜索引擎及数据源Vendor提供Connector,这些Connector将数据index到搜索引擎中。当然对于structured的数据库,文本文件等,也可以是Customized code提供更合理的索引。

第三种, Virtual document , 在索引的时候,把来自多个数据源的关联数据合并成一个记录。Autonomy经常使用importURL, importFile来实现, Vivisimo则通过meta data来extracted, normalized, and combined Virtual document.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值