目录
1. 什么是【constant】模型
Constant模型,也就是常量预测模型,使用到的学习器learner 是多数/平均数算法(majority/mean learning algorithm),经过该学习器生成的模型始终预测的是一个常数值。
对于分类(classification)问题,它会返回多数类的相对频率。并且将所有的类分成多数类类如在泰坦尼克号的数据集中,遇难也就是No的样本数量为1490个,存活,也就是Yes的样本数量为711个,那么返回的数值应该是1409/(1490+711)=0.677。分类的结果都是No
如果存在两个或更多多数类时,分类器会随机选择预测类,但对于特定示例始终返回相同的类。如鸢尾花数据集,在鸢尾花数据集中,一共150个样本,分为了三类,每类150个。因此返回的数值是50/150是0.33
对于回归(Regression)问题,返回值是所需要预测的Target的平均值
2. 创建案例
2.1 分类问题1-泰坦尼克号数据集
将泰坦尼克数据集在【File】模块中进行导入,并拖拽如下图所示的模块
双击【Test and Score】模块,得到如下结果:
CA准确率仅为0.677
双击【Predictions】模块,得到如下结果:
由于返回的是多数类,No的样本数量更多,拖动右侧的向下滑动,可看出,该模型将所有的样本均预测为了No。
在【Constant】下方显示的是:
0.68:0.32 —>no 的意思是No和Yes的样本出现的概率为0.68:0.32,因此分类为No
2.2 分类问题2-鸢尾花数据集
同样的,将鸢尾花数据集在【File】模块中进行导入,并拖拽如下图所示的模块
双击【Test and Score】模块,得到如下结果:
CA准确率仅为0.22
双击【Predictions】模块,得到如下结果:
由于返回的是多数类,三个样本数量一样,拖动右侧的向下滑动,可看出,该模型将所有的样本均预测为了Iris-virginica。
在【Constant】下方显示的是:
0.33:0.33:0.33 —>no 的意思是三类鸢尾花的样本出现的概率为0.33:0.33:0.33,随机选择分类Iris-virginica,将所有的样本分为Iris-virginica
2.3 回归问题-波士顿房价数据集
同样的,将波士顿房价数据集在【File】模块中进行导入,并拖拽如下图所示的模块
双击【Test and score】模块,结果如下图所示:
R2的数值为-0.003
双击【Prediction】模块,结果如下:
发现所有的数值都被预测为了22.5,这也就是所有的MEDV的均值
双击【Scatter Plot】可看出,所有的MEDV对应的值为22.5
3. 总结
以上就是Constant模型的一个应用,可以看出,该模型的性能还是比较差的