【数据挖掘软件 weka】第四部分 更多的分类器


一、分类边界

导入鸢尾花2d数据集,该数据集仅有花萼长、花萼宽、类别三个属性,打开weka首页的Visualization中的边界可视化(BoundaryVisualizer),同样导入鸢尾花2d数据集。
在这里插入图片描述
边界可视化窗口选择OneR分类器,用训练数据作图等它散开,有色图标显示了决策分界线,训练数据叠加在分界上。

在这里插入图片描述
运行结果如下:
在这里插入图片描述


二、线性回归

导入软件自带的cpu训练集,它的分类是数字的,使用函数分类器中的线性回归,运行后得到输出。
在这里插入图片描述
使用公式时,可以看到对训练数据的成功率,它的相关系数为0.9。

在这里插入图片描述
树分类器下有M5P分类器,运行后创建一个模型树。
在这里插入图片描述
运行后的结果有92-93%的相关值,30的绝对平均误差等,同线性回归比,其相关值低些但绝对误差高些。


三、回归分类

线性回归只能用于数字类的数据集,载入名词类数据集的时候需要把分类标签转化为数字。
分类标签转化为数字,导入diabetes数据集时,若将分类转化至0/1,可以添加无监督的NormalToBinary属性过滤器,并将参数(应用属性索引)设为class的索引值。
在这里插入图片描述

但没有生效,原因是这些属性过滤器不能作用于类的值,将Class处设为No class,继续运行得到如下的结果。
在这里插入图片描述
此时便可以进行线性回归,点击More options,选择输出实例的预测结果的格式。
在这里插入图片描述

引入logistic回归
添加一个新的属性为classification,把预测的值赋给它,然后用OneR优化两种类别分割点。
使用监督的增加分类的属性过滤器,选择其参数为线性回归分类器,并将outputClassificatuin设为True,运行后将存储通过线性回归得到的数字,接下来将之前改为的数字分类转化为名词性类,使用ZeroR(无监督的NumericToNominal属性过滤器),在编号9的属性运行得到0/1标签,将class设为class换成彩色背景。
删除其他属性的值,仅保留class和classification,然后在分类界面使用OneR预测class。
在这里插入图片描述


四、logistic回归

目的:让线性回归也生成概率。
载入diabetes数据集,选择函数的logistics分类器,运行后概率为77.2%。

五、支持向量机

载入diabetes数据集,选择函数的SMO分类器,它实现了一种用于训练支持向量机分类器,叫做序列最小优化算法。weka还有一些更加复杂的支持向量机的实现方法,有一个叫LibSVM的库,是外部库(需要通过Package Manager安装)。


六、集成学习

四种方法:装袋(bagging)、随机化(randomization)、加强(boosting)和堆栈(stacking)。

选择meta分类器中的bagging,可对装袋大小的参数(bagSizePercent)进行修改,目前是100%,即从训练数据集中取样得到另一个相同大小的数据集,重复取样,也就是说我们每次取样都得到同样大小的不同数据集。也可以选择需要装袋的分类器、装袋循环次数和随机数种子。

选择trees分类器中的RandomForest,可选择决策树的最大深度(0指无限深度),我们将要使用的属性数量等。

选择meta分类器中的AdaBoostM1,可更改循环次数参数等变量。

基础方法为0层模型,元学习法为1层模型,基础模型的预测就是元学习法的输入。

选择meta分类器中的Stacking(C),可选择不同的元分类器和折的数量,可选择不同分类器,不同的0层分类器和元分类器。如果要创建多个0层模型,要设置元分类器为0层模型。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值