一、 模型评价指标
这是我第一次写博客,有什么不足的地方望指正,本文主要讲解建模之后,评价模型的好坏的方法。
混淆矩阵
首先提出四个术语TP、TN、FP、FN
- TP(True Positive):预测为正的真实值也为正的样本。
- TN(True Negative):预测值为负的真实值也为负的样本。
- FP(False Positive):预测值为正的真实值为负的样本。
- FN(False Negative):预测值为负的真实值为正的样本。
真实类别 | |||
---|---|---|---|
1 | 0 | ||
预测类别 | positive | TP | FP |
negative | FN | TN |
准确度(accuracy)
精确度(precision)
预测值为1且真实值也为1的样本在值为1的所有样本中所占的比例
召回率(recall)
预测值为1且真实值也为1的样本在预测值为1的所有样本中所占的比例
F1分数
F1分数(F1 Score)是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,F1分数越接近1,即认为模型效果越好。F1的公式如下所示:
二、案例(网络入侵自动识别)
导入相关库(python代码)
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import seaborn as sns
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import cross_val_score
from sklearn.tree import export_graphviz
from sklearn.metrics import roc_curve, auc
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
加载数据集
# 读取数据
intrusion1= pd.read_csv('net_intrusion_end2.csv', encoding='utf-8',error_bad_lines=False)
# 将数据集随机抽取80%作为训练集20%为测试集
X_train, X_test, y_train, y_test = train_test_split(intrusion1.drop('class.',axis=1), intrusion1['class.'], test_size = .2, random_state=10)
#决策树
tree = DecisionTreeClassifier(random_state=5)
tree.fit(X_train