最近在搞libsvm的时候发现C版本和Java版本的程序针对同一个数据居然有不同的分类结果,在我的数据上C的版本比Java的高出3个百分点。我在Java版本上结合ensemble的方法改进了一点点,但效果还是不如C版本原来分类器的效果好,这让我特别费解。
Email请教林博士的回复是Java版本虽然完全是根据C版本的rewrote,但是由于两个语言数值运算的差异,导致了最后结果的差异。值得注意的是,C语言中没有对训练数据进行重新组合,因而得出的结果十分稳定,但是Java中有一个随机排序过程,如果你希望每次在稳定的数据上进行实验,需要加这么一行代码:
svm.rand.setSeed(0);
通过比较两个版本程序中间的迭代输出可以看出来两个程序运算的结果十分相似,如:
Java输出:
optimization finished, #iter = 4897
nu = 0.12752860404260458
obj = -1862.4611327