ftfindID:ftfind
5759次访问,排名15494(-1)好友0人,关注者0
ftfind的文章
原创 9 篇
翻译 0 篇
转载 0 篇
评论 24 篇
最近评论
许式伟:我也在CSDN上开了专栏,有空过来逛逛。:)
文章分类
    收藏
      相册
      存档
      软件项目交易
      订阅我的博客
      XML聚合  FeedSky
      订阅到鲜果
      订阅到Google
      订阅到抓虾
      订阅到BlogLines
      订阅到Yahoo
      订阅到GouGou
      订阅到飞鸽
      订阅到Rojo
      订阅到newsgator
      订阅到netvibes

      原创 关于搜索引擎的倒排索引技术收藏

      新一篇: 杨志卖刀(出售桌面搜索引擎的源代码) | 旧一篇: 定制wordpress左边的sidebar

      写一个桌面搜索引擎还不简单?只要了解一下倒排索引的概念,每个有兴趣的程序员,花点时间,都能写出来一个自己的桌面搜索引擎。

      为什么搜索引擎的查询速度这么快? 说明白了很简单,核心技术就是 “倒排索引”。

      “倒排索引”这个名词很唬人,其实原理很简单。

      假设有3篇文章,file1,file2,file3,文件内容如下: 

      file1 (单词1,单词2,单词3,单词4....)

      file2 (单词a,单词b,单词c,单词d....)

      file3 (单词1,单词a,单词3,单词d....)

      建立的倒排索引就是这个样子:

      单词1 (file1,file3)

      单词2 (file1)

      单词3 (file1,file3)

      单词a (file2, file3)

      ....

      这就是倒排索引,很简单吧。

      比如一个文件要建立索引,就先把它抽成纯文本的格式,然后把一个一个的单词切割出来,每个单词在数据库里是一条记录,单词作为关键字,后面跟着文件的标识ID,位置。

      我写的桌面搜索引擎 ftfind, 内部也采用了倒排索引技术。http://www.18ie.com

      倒排索引技术,点破了很简单,我想每个有兴趣的程序员,花点时间,都能写出来一个自己的桌面搜索引擎。

      还用google desktop search 干什么?看着它右边不时冒出来的广告窗口,心里就不爽。

      为什么不自己写一个呢,随心所欲,自由自在。

      下面收集一些需要进一步了解的知识。 

      在使用索引进行查找时,首先对需要索引的文档进行预处理,建立关于这些文档的索引结构。索引的技术主要有以下3种:倒排索引,后缀数组和签名文件。其中,倒排索引技术在当前大多数的信息检索系统中得到了广泛的应用,它对于关键词的搜索非常有效,在Lucene中也是使用的这种技术。后缀数组技术在短语查询中具有很快的速度,但是这样的数据结构在构造和维护时都比较复杂一些。签名文档技术在20世纪80年代时期比较流行,但是后来倒排索引技术逐渐超越了它。

       

      发表于 @ 2006年10月20日 19:12:00|评论(loading...)|编辑

      评论:没有评论。

      发表评论  


      当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
      Csdn Blog version 3.1a
      Copyright © ftfind