task04 集成学习之关于分类问题指标

最新推荐文章于 2023-05-27 15:19:17 发布

00000000.

最新推荐文章于 2023-05-27 15:19:17 发布

阅读量190

点赞数

文章标签：机器学习 python

本文链接：https://blog.csdn.net/gftfy/article/details/119901198

版权

度量模型性能的指标

度量分类模型的指标和回归的指标有很大的差异，首先是因为分类问题本身的因变量是离散变量，因此像定义回归的指标那样，单单衡量预测值和因变量的相似度可能行不通。

评价指标

真阳性TP：预测值和真实值都为正例；
真阴性TN：预测值与真实值都为正例；
假阳性FP：预测值为正，实际值为负；
假阴性FN：预测值为负，实际值为正；
分类模型的指标：
- 准确率：分类正确的样本数占总样本的比例，即： $\frac{TP+TN}{FP+FN+TP+TN}$ .
- 精度：预测为正且分类正确的样本占预测值为正的比例，即： $\frac{TP}{TP+FP}$ .
- 召回率：预测为正且分类正确的样本占类别为正的比例，即： $\frac{TP}{TP+FN}$ .
- F1值：综合衡量精度和召回率，即： $2\frac{PRE\times REC}{PRE + REC}$ .
- ROC曲线：以假阳率为横轴，真阳率为纵轴画出来的曲线，曲线下方面积越大越好。

当类别为两类时，可以绘制混淆矩阵与ROC曲线
在这里插入图片描述

from sklearn import metrics
import xgboost as xgb
# 读入训练集和测试集
dtrain=xgb.DMatrix(X_train,y_train)
dtest=xgb.DMatrix(X_test)
 
# 参数
params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc',
    'max_depth':8,'gamma':0,'lambda':2,'subsample':0.7,'colsample_bytree':0.8,
    'min_child_weight':3,'eta': 0.2,'nthread':8,'silent':1}
 
# 训练模型
watchlist = [(dtrain,'train')]
bst=xgb.train(params,dtrain,num_boost_round=500,evals=watchlist)
 
y_prob=bst.predict(dtest)
 
y_pred = (y_prob >= 0.5)*1
 
# 真阳率、伪阳率、阈值
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob)   
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb)    # AUC
score_xgb = metrics.accuracy_score(y_test,y_pred)    # 准确率

plt.figure(figsize=(8, 8))
plt.title('Validation ROC')
plt.plot(fpr_xgb, tpr_xgb, 'b', label = 'Val AUC = %0.4f' % auc_xgb)
plt.ylim(0,1)
plt.xlim(0,1)
plt.legend(loc='best')
plt.title('ROC')
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
# 画出对角线
plt.plot([0,1],[0,1],'r--')
plt.show()