Terrier文档翻译:安装与运行

安装与运行

安装与运行 Terrier

如果你立刻就想要运用Terrier在标准测试集上建立索引和进行检索,那么你可以跟着下面的步骤做。 我们为在Linux和Windows上安装Terrier提供了一步步的操作指南,指导你在TREC WT2G测试集上进行你的第一次索引建立和检索。

Terrier必备条件

Terrier唯一的要求是你安装过Java JRE1.7.0或更高版本。 你可以从Java website.下载JRE或JDK(如果你想要Terrier用作开发或者想运行基于web的界面)。

下载Terrier

你可以从主页[Terrier Home]下载Terrier version 4.1的一份拷贝。 网站提供Terrier最新的预编译版本和之前的Unix或Windows版本。

Unix下安装

下载完Terrier之后将其放到你要安装他的位置。命令行导航到这个位置下,并用以下命令解压:

tar -zxvf terrier-core-4.1-bin.tar.gz

这将导致在当前目录下创建一个Terrier目录。然后我们来确认你的系统里是否有正确版本的Java,在命令行输入:

echo $JAVA_HOME

如果$JAVA_HOME环境变量被设置过了,这条命令会输出你的Java安装路径(e.g. /usr/java/jre1.7.0),如果这条命令告诉你已经有了正确的版本的Java(1.7.0or later)那就行了。如果你的系统不满足要求,你可以从JRE 1.7 download website下载Java1.7,然后设置环境变量(把下面这句加入/etc/profile 或 ~/.bashrc files文件):

export JAVA_HOME="你的java安装绝对路径"

Windows下安装

想要使用Terrier你只需要将你下载的Zip包里的内容解压到你选好的位置。Terrier需要Java1.7或更高版本Java,如果你的系统不满足要求,你可以从 JRE download website下一个Java。最后,Terrier是假设你的java.exe在path下的,所以你需要在控制面板中设置环境变量,保证java\bin目录在PATH环境变量下。

使用 Terrier

Terrier带有三个应用:

Batch (TREC) Terrier

允许你轻松地对TREC数据集做索引、检索和结果评价。下一节里会一步一步教你怎么用这个应用。

Interactive Terrier

这个允许你做交互式的检索,并且是一个快速测试Terrier的方式。 假定你在Windows上安装了Terrier,你可以运行Terrier的bin目录下的interactive_terrier.bat 文件来启动交互式Terrier(InteractiveTerrier)。在Unix系统或 Mac上,你可以通过执行interactive_terrier.sh文件来运行交互式Terrier。你可以用 InteractiveQuerying类中提到的属性来配置交互式Terrier的检索功能。

Desktop Terrier

一个桌面搜索应用的例子,如果你还想了解更多关于Desktop Terrier的信息,可以看他的tutorial.

教程: 如何使用Batch (TREC) Terrier

索引

这篇向导会逐步的讲解用Terrier为TREC集建立索引。我们假设这是在Linux系统下,数据集、查询的Topic和相关性评估(qrels)都存在/local/collections/WT2G/目录下。

1. 进入Terrier 文件夹.

cd terrier-core-4.1

2. 通过输入以下命令为使用TREC测试集安装Terrier:

./bin/trec_setup.sh "Absolute_Path_To_Collection_Files"

在我们的例子里:

./bin/trec_setup.sh /local/collections/WT2G/

这会导致在”etc”目录下创建一个collection.spec 文件。这个文件包含了刚刚选定的语料库目录下的文件列表。

3. 如有必要,可以修改 collection.spec 文件,当集合目录下包含了一些你不想要建索引的文件时你可能需要这样做。另外,你可以直接通过以下命令修改:

find /local/collections/WT2G/ -type f | grep -v "PATTERN" > etc/collection.spec

这里"PATTERN"是正则表达式,用来识别不应该被索引的文件。

4. 现在我们已经准备好开始为文档集建立索引了。

./bin/trec_terrier.sh -i

注意: 如果你不想保留直接索引结构(比如不会用到查询扩展),那你可以用输入bin/trec_terrier.sh -i -j 用更快的单通道索引。

检索

想要从刚刚建过索引的测试集检索,跟着下面的步骤做。

1. 首先我们要做一些配置。 Terrier的大量功能是通过属性来控制的。 你可以在etc/terrier.properties文件里预先设好,或者一个一个在命令行里指定。接下来我们要用命令行指定合适的属性。想要检索和评价批量查询的结果,我们需要知道:

  1. 查询的位置(也就是topic文件) – 用trec.topics指定
  2. 要使用的加权模型(e.g. TF_IDF)  - 用trec.model指定 – 包括参数
  3. 对应topics的相关性评估文件(也叫qrels) – 由trec.qrels指定

2. 我们来做一次检索:

./bin/trec_terrier.sh -r -Dtrec.model=PL2 -c 10.99 -Dtrec.topics=/local/collections/WT2G/info/topics.401-450

这是什么意思呢? "-r" 参数指示Terrier做检索,"-c" 告诉Terrier加权模型的参数。PL2是一个高级的 Divergence FromRandomness加权模型,他往往比 TF_IDF 更高效。(模型细节在 the description of the DFR framework)。

如果一切进展顺利,在var/results目录下将会有一个叫InL2c10.99_0.res.res文件。

3. 现在我们将用"-e"参数评估得到的结果。

./bin/trec_terrier.sh -e -Dtrec.qrels=/local/collections/WT2G/info/qrels.trec8.small_web.gz

注意Terrier可以读压缩文件。(e.g. Gzip压缩 – 由.gz后缀标识).

Terrier会到 var/results目录下去找所有.res文件评价,然后将评价结果保存为一个与对应.res文件同名的.eval文件。

4. 现在我们要再做一次检索,只不过这次是带查询扩展(QE)的,在”-r”的基础上用到参数”-q”:

./bin/trec_terrier.sh -r -q -Dtrec.model=PL2 -c 10.99 -Dtrec.topics=/local/collections/WT2G/info/topics.401-450

the guide for configuring retrieval 获取更多关于查询扩展的内容。 注意你的索引必须具有直接索引结构来支持QE,默认单通道索引的话是不会建立的。 (更多详情看Configuring Indexing ). 随后我们可以用带”-e”参数的trec_terrier.sh再做一次结果评价。

./bin/trec_terrier.sh -e -Dtrec.qrels=/local/collections/WT2G/info/qrels.trec8.small_web.gz

5. 现在我们可以执行下面的命令查看所有结果的平均检索精度值(MeanAverage Precision - MAP):

tail -1 var/results/*.eval

第一轮运行的MAP应该是0.3140.

采用查询扩展后的MAP应该是 0.3305

Terrier交互

你可以用基于web的查询界面与你的索引交互。首先,启动他自带的HTTP server:

./bin/http_terrier.sh

然后你可以在 http://localhost:8080输入查询并看到结果。如果你在另一台机器上运行Terrier,就把localhost换成远程主机的hostname。 更多关于配置web界面的内容请看 UsingWeb-based results

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值