建立index和search

1、常用的数据结构

index相关
Xapian::WritableDatabase 用于建立索引。
Xapian::TermGenerator 非常简单的切词、建索引器,不是必须使用的,可用其他替代,但是提供了一些帮助函数,非常好用。

search相关:
Xapian::Database 用于读取索引。
Xapian::Enquire 提供检索服务,与Xapian::Database配合使用
Xapian::QueryParser 查询语句解析器
Xapian::Query 查询语句
Xapian::MSet 检索返回的匹配结果记录集

共用:
Xapian::Document 文档的抽象。
Xapian::SimpleStopper 停用词
Xapian::Error 异常类,.get_description()获取详细信息。


2.建立索引的步骤

(1)打开一个Xapian::WritableDatabase
(2)准备Document
可以用.set_data(string)设置负载数据,有且只能有一个
可以用.add_value(slot, string)设置附加域,可以有N个,slot不能是-1。
上述两个都是Document中附加的,只存储,不会被分词和索引。
建立索引域的方法有两种
a)Document.add_term(word, pos),一个词+位置,一个词+位置的放入。这样显然有点麻烦,于是有了b)方式。
b)建立Xapian::TermGenerator,.set_document(doc),然后将一段用空格分开的字符串传入index_text。之后,doc中就会有这段文本的索引域了。
注意这里我说的是用空格分开的字符串,也就是说,中文分词的步骤我们可以直接拿到外面去做,处理好了再交给Xapian即可!
(3)Document准备完毕后,将其加入DB
(4)切记,一定要DB.commit()。


3、检索流程

与建索引相比,检索要复杂的多。
(1)打开Xapian::Database,路径是建索引时候的WritableDatabase的路径。
(2)用Db构造Xapian::Enquire,后者提供了检索的接口。
(3)使用Xapian::QueryParser解析Query字符串,生成Xapian::Query。
(4)enquire.set_query(),进行检索,说实话这个API真够冏的……
(5)enquire.get_mset(start,len)返回结果集合,MSet,相当于支持分页,这个太赞了!
(6)对返回的MSet遍历使用Xapian::MSetIterator,get_rank()获取排名,get_document返回检索时对应的文档。


4、检索语法

检索语法:
Term AND|OR|NOT Term …
Term -> Term|~Term
其中~表示同义词(依赖于建索引时候额外提供的同义词pair)

5、关于域的支持

最早的Xapian是不支持多个域的,现在虽然支持,但是没有提供类似Lucene中add_field这样的操作,而是采用了“前缀”和“映射”的方法。
它依赖于建索引和检索时候分别提供额外的“前缀”和“前缀映射”。
(1)建立索引时,以Xapian::TermGenerator为例
需要设置TermGenerator.set_database(db)
建索引域时,API如下:
index_text (const std::string &text, Xapian::termcount wdf_inc=1, const std::string &prefix=std::string())
后两个是有默认数值的,第二个是tf增加量,最后一个是前缀,比如Title域,我们令prefix=“T”,Content域,prefix=”C”,这个前缀得是你自己定义好的,并且要前后一致!
(2)搜索时候,在Xapian::QueryParser中添加映射,.add_prefix(“title”, “T”),于是,我们给qp.parse_query的查询字符串就可以包含域了!形如:

title:新闻 AND content:男篮


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值