xapian学习
坚持到底cw
奋斗青年
展开
-
xapian-database
1. Xapian的database是所有用于检索的信息表的集合,以下的表是必需的: posting listtable 保存了被每一个term索引的document,实际上保存的应该是document在database中的Id,此Id是唯一的。 record table 保存了每一个document所关联的data,data不能通过query检索,只能通过document来转载 2013-12-30 11:43:48 · 1087 阅读 · 0 评论 -
xapian-document,term,value
1. 每一个document是被一个terms集合所描述的,通常一个document认为是一块文本,一个term则是一个词语或短语以用作描述document的,在document中大多数会存在着多个term。2. 如果某个特定的term索引了某个特定的document,那么称之为posting,说白了posting就是带position信息的term,在相关度检索中可能有一定的用途的。转载 2013-12-30 21:21:11 · 1070 阅读 · 0 评论 -
分面搜索
1. 分面搜索使用户可以动态的对用户所查询的命中文档进行特定属性的聚合,分面搜索在很多地方都有应用,特别昌电子商场中,用户输入一个查询条件,服务器返回这个查询所命中的文档的分类信息,如用户查询“电脑”,那服务器返回命中“电脑”这个关键词的所有文档,并且对这些文档进行类型的聚类,如平板电脑、笔记本电脑、台式机等分类都有出现“电脑”这个词,这种聚类是多维度的,可能这些命中的文档属于不同的商家,那同时也转载 2014-03-01 21:43:06 · 1241 阅读 · 1 评论 -
建立index和search
1、常用的数据结构index相关Xapian::WritableDatabase 用于建立索引。Xapian::TermGenerator 非常简单的切词、建索引器,不是必须使用的,可用其他替代,但是提供了一些帮助函数,非常好用。search相关:Xapian::Database 用于读取索引。Xapian::Enquire 提供检索服务,与Xapian::Da原创 2014-03-01 21:55:21 · 1605 阅读 · 0 评论 -
xapian简介
1. Xapian的官方网站是http://www.xapian.org,是一个非常优秀的开源搜索引擎项目,搜索引擎其实只是一个通俗的说法,正式的说法其实是IR(Information Retrieval)系统。2. Xapian的License(版权许可证)是GPL,意味着允许使用者自由地修改其源码并发布之。Xapian允许开发人员添加高级索引和搜索功能到他们的应用系统。GN转载 2013-12-30 11:41:00 · 1316 阅读 · 0 评论 -
字段排序
1.在Xapina中,命中文档的排序是以文档的相关度降序来做的,当两个文档的相关度一样时,按文档id的升序来做,你也可以通过设置enquire.set_docid_order(enquire.DESCENDING)来把其变成降序,或者设置成不关心文档id的排序enquire.set_docid_order(enquire.DONT_CARE);当然这个排序也可以按其它规则来做,或者其它规则与相关度转载 2014-03-01 21:31:27 · 917 阅读 · 0 评论