Indri入门系列1.1 & 1.2——建立能够为IndexUI.jar理解的TRECWeb格式的文档

这篇文档算不上一篇完整的blog,只是作为一个小Bug的记录而已,所以取名1.1~

在使用IndexUI.jar建立索引的过程中,笔者选择使用了TRECWeb的数据格式,但是发现总是出现一些小问题,不是无法建立索引就是建立的索引只包含一个文档。经过若干轮的折磨,最终发现问题在于,Indri理解的TRECWeb必须是以“\n”来结尾的。。。

 

这是今天的1.2,哈哈

笔者使用Indri自带的图形界面IndexUI.jar来建立索引,在编程对索引进行处理时,发现总是无法获得到域内(fields)的值,最开始以为是Indri与Lucene中域的概念不同造成的,并没有进行深入的理解。今天突发奇想,对IndexUI进行了调试,发现在IndexUI.jar中,在设置域的时候,不仅要在Field是面板上进行设置,而且需要在Index面板的Collection Fileds中填写域名,并以逗号隔开。这样就可以在编程过程中使用诸如:

env.documentMetadata(docIds, "table")

这样的代码了。不过值得注意的是,在Indri的域中,只会提取域名的子节点。不知道有没有可以更改的地方?

 

转载请注明出处:http://www.cnblogs.com/supakito/archive/2012/12/01/2797687.html

转载于:https://www.cnblogs.com/supakito/archive/2012/12/01/2797687.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值