ciir.umass.edu.features.FeatureManager除了提供训练数据、特征文件的读取功能之外,还可以作为命令行工具提供数据混排、数据分区及模型特征统计的功能。
使用方法
java -cp bin/RankLib.jar ciir.umass.edu.features.FeatureManager <Params>
参数说明
参数 | 说明 |
-input <file> | 原始数据文件。 |
-output <dir> | 输出目录。 |
-shuffle | 创建一个原始数据文件的副本,其中所有的query的顺序是随机的,但是query中的doc顺序是不变的。混排后的文件名为在原始数据文件名后加后缀“.shuffled”。 |
-k <fold> | 折数。将原始数据按折数进行分区。默认按顺序进行分区。如果同时提供了-shuffle选项,则会将原始数据先进行混排,然后按混排后的顺序进行分区。分区后的文件名在原文件名后加前缀:“f”+折数+“.train.”/“.test.”/“.validation.”。此外如果分区前先进行了混排,同时会加上后缀“.shuffled”。如原始文件名为“sample.txt”,则分区后的训练数据文件名为“f1.train.sample.txt”、“f2.train.sample.txt”等。 |
-tvs x | 可选的,将分区后的训练数据分割成x的训练数据和1-x的验证数据。x为0-1之间的浮点数。默认不进行分割。 |
-feature_stats <file> | 统计LTR模型文件特征使用情况。不处理Coordinate Ascent、LambdaRank、ListNet和RankNet模型,因为这些模型包含所有的特征。使用此功能需要引入第三方包commons-math3-3.5.jar。 |