Weka 3.8 使用GridSearch的方法及步骤

最新推荐文章于 2023-05-08 16:04:15 发布

smilehehe110

最新推荐文章于 2023-05-08 16:04:15 发布

阅读量3.6k

点赞数 1

分类专栏：数据挖掘之WEKA 机器学习之支持向量机文章标签： WEKA GridSearch libSVM 格子搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smilehehe110/article/details/54573398

版权

数据挖掘之WEKA 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

机器学习之支持向量机

8 篇文章 1 订阅

订阅专栏

Weka 3.8 使用GridSearch的方法及步骤

WEKA 3-8中开始没有GridSearch，需要从WEKA GUIChooser首页，tools菜单下的Package Manager里边下载，操作如图所示。

按下图数字标记操作：

1：选中All

2：输入“GridSearch”，回车

3：Package里边就会出现结果，然后选中

4：单击“install”按钮

5：在右边5的位置可以看到安装进度条

在打开“Explorer”面板，在classify下的meta里边可以找到GridSearch了。

（需要先载入一个数据集，否则“classify”是灰色的）

载入数据集：

选中GridSearch：

单击GridSearch的配置面板：（参数配置）【以libsvm的参数为例】

选中要用的分类器：libSVM（要优化其参数cost和gamma）

可以配置部分参数，如normalize：True

Evaluation：Accuracy（离散类别的数据集）

XPropety：cost（优化参数名与libSVM中的参数名一致）

YPropety：gamma（优化参数名与libSVM中的参数名一致）

XBase：2 （用于pow计算的底）

XExpression：pow(BASE,1) （指数函数，还可以是别的函数）

XMax：3

XMin：0

XStep：1 （步长间隔）

表示cost的范围从[2⁰,2³]，间隔为2¹，即横坐标：2⁰，2¹，2²，2³

YBase：2

YExpression：pow(BASE,1)

YMax：16

YMin：0

YStep：2

表示gamma的范围从[2⁰,2¹⁶]，间隔为2²，即纵坐标：2⁰，2²，2⁴，…，2¹⁶

注：参数范围的设置，包括所使用的表达式，要根据训练实例来设置，可以开始把范围弄的小点儿（也就是网格小点儿），进行测试，多次寻找最佳的参数对，否则数据集比较大的话，会耗时很长，还不一定得出比较好的结果。

关于SVM参数的优化选取，国际上并没有公认统一的最好的方法，现在目前常用的方法就是让c和g在一定的范围内取值，对于取定的c和g对于把训练集作为原始数据集利用K-CV方法得到在此组c和g下训练集验证分类准确率，最终取使得训练集验证分类准确率最高的那组c和g做为最佳的参数。

但有一个问题就是可能会有多组的c和g对应于最高的验证分类准确率，这种情况怎么处理?

这里采用的手段是选取能够达到最高验证分类准确率中参数c最小的那组c和g做为最佳的参数，如果对应最小的c有多组g，就选取搜索到的第一组c和g做为最佳的参数。

这样做的理由是:过高的c会导致过学习状态发生，即训练集分类准确率很高而测试集分类准确率很低(分类器的泛化能力降低)，所以在能够达到最高验证分类准确率中的所有的成对的c和g中认为较小的惩罚参数c是更佳的选择对象。

交叉验证，为了加快速度，可以使用5折。

运行得出的结果：C=1，g = 256，平均准确率为81.79%

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Weka 3.8 使用GridSearch的方法及步骤

weka 3.8运行GridSearch的步骤，其他版本仍可以借鉴，以libsvm的参数为例，进行GridSearch的使用步骤分解。。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。