Terrier文档翻译:配置概述

配置 Terrier

配置概述

Terrier 全都是由几个文件来配置的,都在 etc/目录。最核心的文件是 terrier.properties 和terrier-log.xml。 在terrier.properties里,你可以指定Terrier中定义的任意变量的属性。 属性文档页(Properties)列出了你配置Terrier会用到的大部分属性。,而javadoc 里列出了那些直接影响类的属性。terrier.properties文件的默认配置如下:

 
#default controls for query expansion
querying.postprocesses.order=QueryExpansion
querying.postprocesses.controls=qe:QueryExpansion
 
#default and allowed controls
querying.default.controls=
querying.allowed.controls=qe,start,end,qemodel
 
#document tags specification
#for processing the contents of
#the documents, ignoring DOCHDR
TrecDocTags.doctag=DOC
TrecDocTags.idtag=DOCNO
TrecDocTags.skip=DOCHDR
 
#query tags specification
TrecQueryTags.doctag=TOP
TrecQueryTags.idtag=NUM
TrecQueryTags.process=TOP,NUM,TITLE
TrecQueryTags.skip=DESC,NARR
 
#stop-words file
stopwords.filename=stopword-list.txt
 
#the processing stages a term goes through
termpipelines=Stopwords,PorterStemmer

在errier.properties文件中属性都以name=value这种格式指定(默认Java属性格式)。注释都是以#开头的一行。

脚本化配置

TrecTerrier支持在命令行下指定属性进行配置。这就能够轻松地重置属性,即使有些属性已经在etc/terrier.properties里被指定过了。比如说要创建一个不带词干分析的索引,你就可以用这条命令:

[user@machine]$ bin/trec_terrier.sh -i -Dtermpipelines=Stopwords

另: 在查找要重置的属性的时候,Terrier也会去System properties provided by Java里核查有Java提供的系统属性。这意味着你可以在Java代码的任意地方或者以Java命令行的方式设置属性。

作为另一个例子,你可以用 shell 脚本 (e.g.Bash)来跑Terrier,同时带上很多expansion.terms里的查询扩展的属性设定:

[user@machine]$ for((i=2;i<10;i++)); do 
         bin/trec_terrier.sh -r -q -Dexpansion.terms=$i 
done

日志配置

Terrier用 Log4j来打日志。 你可以通过调整etc/terrier-log.xml (为什么我没看到)里的log4j配置来控制日志信息输出的数量。(logging level) 更多关于Log4j的内容,请看Log4jdocumentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值