1 基于交叉验证的模型评估
由于在实际训练中,分类器往往对训练数据分类较好,而对于测试数据拟合程度较差,因此我们需要用交叉验证法来评估模型的泛化能力,并对模型进行选择。交叉验证的基本思路为将样本分成训练组和测试组,用训练组构建分类模型,用测试组验证模型并且评估模型性能。交叉验证法主要包括k-fold交叉验证法、随机子抽样法、留一法、保持法等。
对于KFlod方法,将样本均分成k份独立不重叠的子集,每一个子集都轮流成为测试集,剩余k-1个子集成为训练集并进行训练得到分类模型,最后用测试集验证该模型并得到识别正确率,一共可以得到k个模型以及识别正确率,将这些识别正确率进行叠加平均,所得数值即为当前参数设定下分类器的模式识别性能。 k-fold交叉验证法由于在整个过程中,每一个子集均被作为训练集和测试集,可有效避免产生过度学习和欠学习现象,得到的结果也比较有说服性。
2 使用学习和验证曲线调试算法
如果模型太过复杂就会有过拟合的风险(高方差);如果模型过于简单,就会有欠拟合的风险(高偏差)。
2.1 学习曲线
学习曲线就是就是通过画出随样本大小变化的交验证的准确率变化的曲线。通常会画出期望准确率、学习准确率和验证准确率。
- 当学习准确率不能达到期望准确率时,模型欠拟合,有高偏差;
- 当学习准确率高与期望偏差,但是远高与验证准确率,随着样本的增大依然如此,说明模型过拟合,有高方差;
- 当学习准确率与验证准确率随着数据集增大趋于接近,说明模型学习和泛化性能较好。
# 用学习曲线诊断偏差与方差
from sklearn.model_selection import learning_curve
pipe_lr3 = make_pipeline(StandardScaler(),LogisticRegression(random_state=1,penalty='l2'))
train_sizes,train_scores,test_scores = learning_curve(estimator=pipe_lr3,X=X_train,y=y_train,train_sizes=np.linspace(0.1,1,10),cv=10,n_jobs=1)
train_mean = np.mean(train_scores,axis=1)
train_std = np.std(train_scores,axis=1)
test_mean = np.mean(test_scores,axis=1)
test_std = np.std(test_scores,axis=1)
plt.plot(train_sizes,train_mean,color='blue',marker='o',markersize=5,label='training accuracy')
plt.fill_between(train_sizes,train_mean+train_std,train_mean-train_std,alpha=0.15,color='blue')
plt.plot(train_sizes,test_mean,color='red',marker='s',markersize=5,label='validation accuracy')
plt.fill_between(train_sizes,test_mean+test_std,test_mean-test_std,alpha=0.15,color='red')
plt.xlabel("Number of training samples")
plt.ylabel("Accuracy")
plt.legend(loc='lower right')
plt.ylim([0.8,1.02])
plt.show()
2.2 验证曲线
验证曲线与学习曲线相似,不过绘制的不是样本大小与训练准确率、测试准确率之间的函数关系,而是准确率与模型参数之间的关系。验证曲线是一种定位过拟合与欠拟合等诸多问题的方法,能帮助提高模型性能。
# 用验证曲线解决欠拟合和过拟合
from sklearn.model_selection import validation_curve
pipe_lr3 = make_pipeline(StandardScaler(),LogisticRegression(random_state=1,penalty='l2'))
param_range = [0.001,0.01,0.1,1.0,10.0,100.0]
train_scores,test_scores = validation_curve(estimator=pipe_lr3,X=X_train,y=y_train,param_name='logisticregression__C',param_range=param_range,cv=10,n_jobs=1)
train_mean = np.mean(train_scores,axis=1)
train_std = np.std(train_scores,axis=1)
test_mean = np.mean(test_scores,axis=1)
test_std = np.std(test_scores,axis=1)
plt.plot(param_range,train_mean,color='blue',marker='o',markersize=5,label='training accuracy')
plt.fill_between(param_range,train_mean+train_std,train_mean-train_std,alpha=0.15,color='blue')
plt.plot(param_range,test_mean,color='red',marker='s',markersize=5,label='validation accuracy')
plt.fill_between(param_range,test_mean+test_std,test_mean-test_std,alpha=0.15,color='red')
plt.xscale('log')
plt.xlabel("Parameter C")
plt.ylabel("Accuracy")
plt.legend(loc='lower right')
plt.ylim([0.8,1.02])
plt.show()
3 超参数调优
3.1 网格搜索
sklearn官网介绍
网格搜索的思想是对所有需要优化的超参数的选择项进行排列组合,对每一个组合训练一个模型,然后选择对应模型测试误差最小的超参数组合。我们从超参数空间中寻找最优的超参数,很像从一个网格中找到一个最优的节点,因此叫网格搜索。网格搜索相当于暴力地从参数空间中每个都尝试一遍,然后选择最优的那组参数。
# 使用网格搜索进行超参数调优:
# 方式1:网格搜索GridSearchCV()
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
import time
start_time = time.time()
pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1))
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{'svc__C':param_range,'svc__kernel':['linear']},{'svc__C':param_range,'svc__gamma':param_range,'svc__kernel':['rbf']}]
gs = GridSearchCV(estimator=pipe_svc,param_grid=param_grid,scoring='accuracy',cv=10,n_jobs=-1)
gs = gs.fit(X,y)
end_time = time.time()
print("网格搜索经历时间:%.3f S" % float(end_time-start_time))
print(gs.best_score_)
print(gs.best_params_)
3.2 随机网格搜索
sklearn官网介绍
由于随着参数类别个数的增加,网格搜索需要尝试的次数呈指数级增长。那么这一问题该如何解决呢?那就是使用随机搜索。参数的随机搜索中的每个参数都是从可能的参数值的分布中采样的。
# 方式2:随机网格搜索RandomizedSearchCV()
from sklearn.model_selection import RandomizedSearchCV
from sklearn.svm import SVC
import time
start_time = time.time()
pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1))
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{'svc__C':param_range,'svc__kernel':['linear']},{'svc__C':param_range,'svc__gamma':param_range,'svc__kernel':['rbf']}]
# param_grid = [{'svc__C':param_range,'svc__kernel':['linear','rbf'],'svc__gamma':param_range}]
gs = RandomizedSearchCV(estimator=pipe_svc, param_distributions=param_grid,scoring='accuracy',cv=10,n_jobs=-1)
gs = gs.fit(X,y)
end_time = time.time()
print("随机网格搜索经历时间:%.3f S" % float(end_time-start_time))
print(gs.best_score_)
print(gs.best_params_)
4混淆矩阵
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量。
5 ROC曲线
ROC曲线:以假阳率为横轴,真阳率为纵轴画出的曲线,曲线下方面积越大越好(又称为感受性曲线,是因为曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线描述的其实是分类器性能随着分类器阈值的变化而变化的过程)面积越接近于1识别能力越强,面积等于1为完全识别。