Lemur简明教程

本文记录了使用Lemur进行信息检索实验的过程,包括安装Indri,建立索引,参数调整,检索,评测和K折交叉检验。通过实验比较了LM 2-Stage和BM25模型的不同参数效果,介绍了Lemur作为成熟检索工具的使用经验。
摘要由CSDN通过智能技术生成

    课程作业需要做一个评测实验,借机会了解一下Lemur,其实使用教程在Lemur官网(http://www.lemurproject.org/)和SourceForge(http://sourceforge.net/projects/lemur/wiki/)上都有较为详细的讲解,不过后者的文档是从原来的Lemur资料库转移过去的,很多内容不全,建议多查看Indri目录里的doc。中文教程不多,毛进师兄那里一些不错的资源(http://blog.sciencenet.cn/home.php?mod=space&uid=563898)。

    我也把自己的实验过程简单记录一下。

    其实目前世界上有不少经典的检索工具,之前我们做实验都是使用Apache Lucene,但是学术界还是比较认可Lemur。Lemur项目是由UMass和CMU的牛们共同合作的,《Search Engines:Information Retrieval in Practice》是Lemur的重要成果,作者就是Croft,另外两个作者都是他的学生,都去Google搜索部门混了。国内译本是刘挺翻译的,一直放桌上还没看过。。不查不知道,其实还有很多实现的搜索引擎,比如Lucene,Terrier,Wumpus等等(http://www.emse.fr/~mbeig/IR/tools.html)。有必要针对一两个分析他们的具体实现。

1. 实验目的

   使用k折交叉检验(k=5)训练出下列模型的最优参数:

o   LM 2-Stage

    Mu的取值范围:

        mu=(100,500, 800, 1000, 2000, 3000, 4000, 5000, 8000, 10000);

    Lambda的取值范围:

        lambda=(0.01,0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99);

 

o   BM25

    K1及b的取值范围:

        K1=(1.0, 1.1, 1.2, 1.3, 1.4, 1.5,1.6, 1.7, 1.8, 1.9,2.0); 

        b = (0, 0.1 ,0.2, 0.3, 0.4, 0.5,0.6,0.7 0.8, 0.9, 1.0);

 

2.  安装

    Indri的安装很简单,下载传送门:https://sourceforge.net/projects/lemur/files/lemur/

    里面有不少内容可以下载,Indri就是我们实验需要的程序,最新版本为5.4。lemur-too

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值