Anserini 教程

最新推荐文章于 2024-09-13 07:44:28 发布

余达殉Lambert

最新推荐文章于 2024-09-13 07:44:28 发布

阅读量332

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00475/article/details/141084674

版权

Anserini 教程

anseriniAnserini is a Lucene toolkit for reproducible information retrieval research项目地址:https://gitcode.com/gh_mirrors/an/anserini

1. 项目介绍

Anserini 是一个基于 Lucene 的信息检索工具包，专注于可复现性研究。它的目标是缩小学术界的信息检索研究与实际搜索引擎构建之间的差距。Anserini 提供了一系列的索引和查询接口，支持标准测试集上的端到端实验，从而便于研究人员对比和评估不同的检索方法。

2. 项目快速启动

环境准备

确保已安装 Java 21 和 Maven 3.9+。若在 Windows 上，推荐使用 WSL2 避免编码问题。

克隆仓库

git clone --recurse-submodules https://github.com/castorini/anserini.git

构建项目

进入项目目录并执行 Maven 清洁和打包操作：

cd anserini
mvn clean package

安装评估工具

cd tools/eval
tar xvfz trec_eval-9.0.4.tar.gz
cd trec_eval-9.0.4
make
cd ../ndeval
make

至此，Anserini 已准备好运行。

3. 应用案例与最佳实践

一个典型的应用示例是在 MS MARCO 数据集上进行检索：

./bin/index.sh -collection msmarco-v1-passage \
                -input data/msmarco-doc/txt/passage \
                -index indexes/lucene-index-msmarco-passage-<version> \
                -shards 8
./bin/search.sh -index indexes/lucene-index-msmarco-passage-<version> \
                 -topicreader TREC \
                 -topics data/msmarco-doc/topics-tiny.txt \
                 -output runs/run.msmarco-passage.tiny.txt \
                 -topk 1000

然后，可以使用 trec_eval 对结果进行评估：

java -cp target/anserini-<version>-jar-with-dependencies.jar io.anserini.evaluation.TREC.eval -q run.msmarco-passage.tiny.txt data/msmarco-doc/golden_tiny.txt