周志华西瓜书学习笔记----模型评估与选择

Ω2πA 》

已于 2022-07-15 16:15:59 修改

阅读量297

点赞数

文章标签：学习 python 机器学习

于 2022-07-14 22:41:00 首次发布

本文链接：https://blog.csdn.net/Nothon/article/details/125785021

版权

文章目录

一、过拟合
二、分割数据集得到训练集和测试集
- 1、留出法
- 2、交叉验证法
三、查准率、查全率与Fl
- 使用混淆矩阵
四、P-R曲线和ROC曲线
- 1、P-R曲线是这样定义的
- 2、ROC曲线
五、代价敏感错误率与代价曲线
六、假设检验
- 1、如果我们只有一个学习器：
- 2、如果我们有多个学习器：

一、过拟合

在机器学习中过拟合是不可避免的，每种学习算法都有降低过拟合可能性的方法，例如决策树中可以通过限制树的层数和剪枝等方法降低过拟合。
请添加图片描述
直观来说，过拟合是学习能力太强，导致模型得到了较小数据集（训练集）中的特殊特征（不一般化的特征，由随机选取的训练集数据决定），也就是图中的锯齿。

从模型的角度出发，上图是一个线性回归模型，用来预测连续的值。左侧使用直线得到的结果是欠拟合的，右侧是关于x的5次方的曲线，它完美通过了所有训练集中的点，但是这条线的最左侧和最右侧趋近于无穷，可以想象如果测试集中的点不出现在中间的话会有多大的误差，这就是过拟合。

二、分割数据集得到训练集和测试集

1、留出法

留出法是将数据集分割成不相交的两个部分，多的部分作为训练集（常用0.7），少的部分作为测试集。

from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=1)

其中X，Y分别为是数据集的属性和label。

2、交叉验证法

一般来说将数据集分割成10个不相交的子集（保证这10个自己是随机抽取组成的）。然后每次取其中的9个子集作为训练集，剩下的一个作为测试集，重复10次。

三、查准率、查全率与Fl

下图为混淆矩阵
请添加图片描述

TP----True positive
TN----Ture negative
FP----False positive
FN----False negative
其中的negative和positive表示预测结果为反例和正例，true和false表示预测正确与否
查准率和查全率是一对矛盾的度量.一般来说，查准率高时，查全率往往偏低;而查全率高时，查准率往往偏低

使用混淆矩阵

代码如下（示例）：

import pandas as pd #读取csv文件
from sklearn.preprocessing import LabelEncoder #将标签的文字格式转换成数字格式
from sklearn.model_selection import train_test_split #分割训练集，使用留出法
from sklearn import tree #引入树
from sklearn.metrics import confusion_matrix #引入混淆矩阵
from sklearn.metrics import precision_score,recall_score,f1_score

这里引入了需要使用的包

df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data',header=None)
print(df)

请添加图片描述
这是我们使用的数据集，来自网页http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/中的wdbc.data文件

X = df.loc[:,2:].values #得到第三列后的的子矩阵
Y = df.loc[:,1].values #得到第二列的label
le = LabelEncoder() #转化label格式
Y = le.fit_transform(Y)
print(Y)

Y的输出为
请添加图片描述
原始文件中的M和B转化成了0和1

Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=1) #分割数据集的到训练集和测试集
clf = tree.DecisionTreeClassifier()
clf.fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest)
print(score) #给出精确度
y_pred = clf.predict(Xtest)
confmat = confusion_matrix(Ytest,y_pred)
print(confmat) # 得到混淆矩阵

精确度为
请添加图片描述
混淆矩阵为

可以看见错误的预测有8个，总共有171个数据，则（171-8）/171 约等于0.9532

precision_score= precision_score(Ytest,y_pred)
print(precision_score)
recall_score = recall_score(Ytest,y_pred)
print(recall_score)

获得查准率和查全率，分别为0.98245和0.88888。

四、P-R曲线和ROC曲线

1、P-R曲线是这样定义的

请添加图片描述
也就是我们应该可以通过学习器获得这样的数据（？但我不清楚怎么获得），其中的score指的是某一个样本为正例的可能。

2、ROC曲线

ROC曲线也是基于上述的表格，我们不断选择阈值（threshold），例如0.85，那么大于0.85的样本应该是例，小于0.85的样本应该是反例。也就是，2、4、5、6、9等样本预测错误，这样我们就获得了一个混淆矩阵。请添加图片描述
TPR是“真正例率”，FPR是"假正例率" 。

五、代价敏感错误率与代价曲线

之前我们提到了查准率和查全率是互斥的，此消彼长，那么在特殊情况下我们可以牺牲一方来获得更加优秀的另一方。在混淆矩阵中，FP指预测结果为正例但是预测错误，即反例预测成正例；FN指预测结果为反例但是预测错误，即正例预测成反例。
举个例子，若医院诊断癌症使用一种模型，阳性为正例，阴性为反例。这个模型应该尽可能减小FN，即增加查准率，因为如果患者身患癌症却没有诊断出来，那么这就是一起医疗事故（患者之后可能死亡）。为了减小查准率，我们可以容忍较低的查准率，因为即使患者没有癌症而被诊断出身患癌症，后续无非就是进一步进行检查。