选择模型 _ 评估算法

最新推荐文章于 2023-04-30 19:36:28 发布

小米粥大哲学

最新推荐文章于 2023-04-30 19:36:28 发布

阅读量455

点赞数

分类专栏：机器学习 | 机器学习：Python实践文章标签：算法 sklearn 机器学习 python

本文链接：https://blog.csdn.net/LIGHTER_06/article/details/122906111

版权

机器学习 | 机器学习：Python实践专栏收录该内容

13 篇文章 1 订阅

订阅专栏

1 评估算法

1.1 评估算法的方法

在评估机器学习算法的时候，之所以不把训练数据集作为评估数据集，是因为过度拟合，不能有效地发现算法模型的不足。拟合是指已知某函数的若干离散函数值 ${f_{1},f_{2},\cdots ,f_{n}}$ ,通过调整该函数中若干待定系数 $f(\lambda _{1},\lambda _{2},\cdots ,\lambda _{n})$ ，使该函数与已知点集的差别最小。过度拟合是指为了得到一致假设变得过度严格。避免过度拟合是分类器设计中的一个核心任务，通常采用增大数据量和评估数据集的方法对分类器进行评估。

1.2 分离训练数据集和评估数据集

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.33
seed = 4
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train, Y_train)
result = model.score(X_test, Y_test)
print("算法评估结果：%.3f%%" % (result * 100))

注：分割数据集取决于数据集的规模，通常会将67%的数据作为训练集，将33%的数据集作为评估数据集。

1.3 K折交叉验证分离

交叉验证是用来验证分类器的性能的一种统计分析方法，有时也称作循环估计，在统计学上是将数据样本切割成小子集的实用方法。首先用训练数据集对分类器进行训练，再利用评估数据集来测试训练，以此作为评价分类器的性能指标。

K折交叉验证是将原始数据分成K组，将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，这样会得到K个模型，再用这K个模型最终的验证集的分类准确率的平均数，作为此K折交叉验证下分类器的性能指标。K折交叉验证可以有效地避免过学习及欠学习状态的发生，最后得到的结果也比较有说服力。

K折交叉验证是用来评估机器学习算法的黄金准则。通常会取K为3、5、10来分离数据。还有一条黄金准则是，当不知道如何选择分离数据集的方法时，就选择K折交叉验证来分离数据集；当不知道如何设定K值时，就将K值设置为10。

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, shuffle=True, random_state=seed)
model = LogisticRegression()
result = cross_val_score(model, X, Y, cv=kfold)
print("算法评估结果：%.3f%%(%.3f%%)" % (result.mean() * 100, result.std() * 100))

1.4 弃一交叉验证分离

如果原始数据有N个样本，那么弃一交叉验证就是N-1个交叉验证，即每个样本单独作为验证集，其余的N-1个样本作为训练集，所以弃一交叉验证会得到N个模型，用这N个模型最终的验证集的分类准确率的平均数作为此次弃一交叉验证分类器的性能指标。

相较于K折交叉验证，弃一交叉验证有两个显著的优点：

每回合用于训练模型，因此最接近原始样本的分布，这样评估所得的结果比较可靠。
实验过程中没有随机因素会影响实验数据，确保实验过程是可以被复制的。

from pandas import read_csv
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
loocv = LeaveOneOut()
model = LogisticRegression()
result = cross_val_score(model, X, Y, cv=loocv)
print("算法评估结果：%.3f%%(%.3f%%)" % (result.mean() * 100, result.std() * 100))

1.5 重复随机分离评估数据集与训练数据集

from pandas import read_csv
from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
n_splits = 10
test_size = 0.33
seed = 7
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
model = LogisticRegression()
result = cross_val_score(model, X, Y, cv=kfold)
print("算法评估结果：%.3f%%(%.3f%%)" % (result.mean() * 100, result.std() * 100))