最近在搞libsvm的时候发现C版本和Java版本的程序针对同一个数据居然有不同的分类结果,在我的数据上C的版本比Java的高出3个百分点。我在Java版本上结合ensemble的方法改进了一点点,但效果还是不如C版本原来分类器的效果好,这让我特别费解。
Email请教林博士的回复是Java版本虽然完全是根据C版本的rewrote,但是由于两个语言数值运算的差异,导致了最后结果的差异。值得注意的是,C语言中没有对训练数据进行重新组合,因而得出的结果十分稳定,但是Java中有一个随机排序过程,如果你希望每次在稳定的数据上进行实验,需要加这么一行代码:
svm.rand.setSeed(0);
通过比较两个版本程序中间的迭代输出可以看出来两个程序运算的结果十分相似,如:
Java输出:
optimization finished, #iter = 4897
nu = 0.12752860404260458
obj = -1862.461132765077, rho = -1.4392049940790217
nSV = 150, nBSV = 23
C的输出:
optimization finished, #iter = 4701
nu = 0.113972
obj = -1633.874048, rho = -0.981085
nSV = 145, nBSV = 18
两者无论在迭代次数还是各个指标上都十分相近,但是。。不一样
中间猜想过能否通过统一Java和C的浮点运算结果来解决,查阅一番后发现Java可以通过设置strictfp来保证浮点运算的跨环境稳定性,但是最终还是没有成功,设置之后结果没有对结果有任何改变。只能进一步分析两边的迭代过程来看看是否能够统一了。希望有经验的友人给予指点。
关于strictfp的一些参考资料:
[1] 知乎,对于同样的浮点数运算为何 Java 与 C 的结果不相同?
[2] stackoverflow, What does fpstrict do in Java?