模型评估[4]_sklearn

最新推荐文章于 2022-12-22 23:09:08 发布

DisguiseR6

最新推荐文章于 2022-12-22 23:09:08 发布

阅读量294

点赞数

分类专栏： # 机器学习实践_sklearn

本文链接：https://blog.csdn.net/qq_25614773/article/details/88750917

版权

机器学习实践_sklearn 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

模型评估

precision、rescore、f1、auc、roc的评分表格，画出roc曲线
??那些是概率&结果（predict&predict_proba）
对于二分类问题：可以分为(0为正例，1为反例)——强调预测的结果和真实比较
1. TP(true positive)真正例：真实为0，预测也0
2. FP(false positive)假正例：真实为1，预测为0
3. TN(true negative)真反例：真实为1，预测为1
4. FN(false negative)假反例：真实为0，预测为1
TP + FP + TN + FN = 样例总数
分类结果的“混淆矩阵”（confusion matrix）

1.分类准确率(accuracy)

所有样本中被预测正确的比率
$\frac{TP+TN}{TP+FN+FP+TN}$

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_predict)

2.精准率（precision）_(查准率)

正确预测为正占全部预测为正的比例——针对预测结果

$\frac{TP}{TP+FP}$

from sklearn.metrics import precision_score
precision = precision_score(y_test, y_predict)

3.召回率（recall）_(查全率)

正确预测为正占全部正样本的比例——针对原始样本
- 有多少正样本被正确的预测出来了

$\frac{TP}{TP+FN}$

from sklearn.metrics import recall_score
recall = recall_score(y_test, y_predict)

查全率和查准率是一对矛盾的度量

4.F1

F1基于精准度和召回率的调和平均

$\frac{1}{F1} = \frac{1}{2}(\frac{1}{P}+\frac{1}{R})$

$\frac{2*P*R}{P+R}$

from skearn.metrics import f1_score
F1 = f1.score(y_test, y_predict)

5.ROC(Receiver Operating Characteristic) 受试者工作特征

ROC曲线
- 纵轴：真正例率（True Positive Rate）TPR
- 横轴：假正例率（False Position Rate）FPR

$\frac{TP}{TP+FN}(召回率)$

$FPR=\frac{FP}{TN+FP}$

6.AUC

ROC曲线下的面积

7.代码绘制

from matplotlib import pyplot as plt
from sklearn.metrics import accuracy_score, recall_score, f1_score, roc_auc_score, roc_curve
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
'''------------------------------------------
1 读取数据
----------------------------------------------'''
data = pd.read_csv('data_processed.csv',encoding='gbk') 
'''-------------------------------------------
1.1 划分训练集何验证集
----------------------------------------------'''
train, test = train_test_split(data, test_size=0.1, random_state=666)
'''----------------------------------------
1.2 获取标签
-------------------------------------------'''
y_train = train.status
train.drop(['status'], axis=1, inplace=True)
y_test = test.status
test.drop(['status'], axis=1, inplace=True)
'''---------------------------------------------
1.3 数据标准化
-----------------------------------------------'''
scaler = StandardScaler()
train = pd.DataFrame(scaler.fit_transform(train),index=train.index, columns=test.columns)
test = pd.DataFrame(scaler.fit_transform(test),index=test.index, columns=test.columns)
'''----------------------------------------
1.4 训练模型
------------------------------------------'''
model = LogisticRegression(C=1, dual=True)
model.fit(train, y_train)
'''----------------
1.5 模型评价
----------------'''
y_predict = model.predict(test)
y_proba = model.predict_proba(test)[:,1]
'''【AUC score】'''
print('auc score:{}'.format(roc_auc_score(y_test, y_predict)))
'''【准确率】'''
print('accuracy:{}'.format(accuracy_score(y_test, y_predict)))
'''【召回率】'''
print('recall_score:{}'.format(recall_score(y_test, y_predict)))
'''【f1】'''
print('f1:{}'.format(f1_score(y_test, y_predict)))
'''------------
1.6 绘制roc曲线
-----------'''
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
plt.plot(fpr,tpr)
plt.plot([0, 1], [0, 1], 'k--')

结果：

参考：ROC与AUC的定义与使用详解

DisguiseR6

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
模型评估[4]_sklearn

模型评估precision、rescore、f1、auc、roc的评分表格，画出roc曲线??那些是概率&结果（predict&predict_proba）对于二分类问题：可以分为(0为正例，1为反例)——强调预测的结果和真实比较TP(true positive)真正例：真实为0，预测也0FP(false positive)假正例：真实为1，预测为0TN(...
复制链接

扫一扫