Weka常见运行错误

最新推荐文章于 2022-04-28 13:26:55 发布

奋斗的鱼

最新推荐文章于 2022-04-28 13:26:55 发布

阅读量4.6k

点赞数

分类专栏：数据挖掘文章标签： weka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jbfsdzpp/article/details/45697897

版权

数据挖掘专栏收录该内容

33 篇文章 1 订阅

订阅专栏

—1、OutOfMemoryException（内存不足例外）

大多数Java虚拟机只分配一定数额的最大内存来运行Java程序，通常远低于计算机中的内存大小。但是，可以通过设置适当的选项，扩展虚拟内存。例如，可以用命令：

java-Xmx512m ...

设置最大Java堆的大小为512MB。还可以使用Xmx2g将其设置为2GB，这样就足够使用。当然，这还要看计算机的配置，设置过大的内存会影响运行性能。

2、StackOverflowError（栈溢出错误）

这是由于设置的堆栈过小造成的错误。尝试增加虚拟机的堆栈。可以使用下面的命令来增加堆栈空间：

java-Xss512k ...

该命令设置Java的最大堆栈大小为512KB。如果还是不够，请慢慢增加。

—3、training and test setare not compatible（训练集和测试集不兼容）

Weka假定训练集和测试集的结构应该完全一致，这意味着训练集和测试集的属性不但在数量上相同，而且在类型上也应该完全一样。对于标称属性，必须确保标签的数量和顺序是完全一致。

使用已经训练好的分类器进行预测，不需要包括任何分类属性的信息。出于速度的原因，Weka不执行任何有关数据集结构的检查，既没有将属性名称从训练空间映射到测试空间，也没有映射标签。在内部，数据集的单行表示为一个double型数组。对于数值属性，这并不构成问题，但对于其他类型的属性，如标称属性，double值表示可用标签列表的索引。标签的不同顺序会导致不同的标签却采用相同的索引表示，这样，预测就不可靠了。

解决的方法是使用批量过滤。如果第二个数据集（通常为测试集）需要与第一个数据集（通常为训练集）处理为具有相同的统计数据，那么就使用批量过滤。代码如下：

java weka filters.unsupervised.attribute.Standardize \

-b \

-i train.arff \

-o train_std.arff \

-s test_std.arff

注：上述命令是适用于Linux/Unix的bash，反斜杠表示续行，如果采用Windows或SimpleCLI，需要去掉反斜杠，并在这一行写全命令

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。