数据建模及模型评估

最新推荐文章于 2024-08-02 09:53:21 发布

spring小郭

最新推荐文章于 2024-08-02 09:53:21 发布

阅读量957

点赞数

分类专栏： python 数据分析

本文链接：https://blog.csdn.net/Ilovechase/article/details/108270442

版权

python 同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

数据分析

5 篇文章 0 订阅

订阅专栏

Task05：数据建模及模型评估

混淆矩阵

混淆矩阵就是分别统计分类模型归错类，归对类的观测值个数，然后把结果放在一个表里展示出来。这个表就是混淆矩阵。
混淆矩阵多用于判断分类器（Classifier）的优劣，适用于分类型的数据模型，如分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等方法。
在这里插入图片描述
真实值是positive，模型认为是positive的数量（True Positive=TP）

真实值是positive，模型认为是negative的数量（False Negative=FN）：这就是统计学上的第二类错误（Type II Error）
真实值是negative，模型认为是positive的数量（False Positive=FP）：这就是统计学上的第一类错误（Type I Error）
真实值是negative，模型认为是negative的数量（True Negative=TN）
预测性分类模型，肯定是希望越准越好。那么，对应到混淆矩阵中，那肯定是希望TP与TN的数量大，而FP与FN的数量小。所以当我们得到了模型的混淆矩阵后，就需要去看有多少观测值在第二、四象限对应的位置，这里的数值越多越好；反之，在第一、三象限对应位置出现的观测值肯定是越少越好。

ROC曲线

假正率为不同阈值下的横坐标，召回率为不同阈值下的纵坐标。
参数：

sklearn.metrics.roc_curve (y_true, y_score, pos_label=None, sample_weight=None,drop_intermediate=True)

y_true : 数组，形状 = [n_samples]，真实标签

y_score : 数组，形状 = [n_samples]，置信度分数，可以是正类样本的概率值，或置信度分数，或者decision_function返回的距离

pos_label : 整数或者字符串, 默认None，表示被认为是正类样本的类别

sample_weight : 形如 [n_samples]的类数组结构，可不填，表示样本的权重

drop_intermediate : 布尔值，默认True，如果设置为True，表示会舍弃一些ROC曲线上不显示的阈值点，这对于计算一个比较轻量的ROC曲线来说非常有用。这个类依次返回：FPR，Recall以及阈值。
模型在捕获少数类的能力变强的时候，尽量不误伤多数类，也就是说，随着recall的变大，FPR的大小越小越好。所以我们希望找到的最优点，其实是Recall和FPR差距最大的点。这个点，又叫做约登指数。
过程：先计算概率predict_proba——然后给出阈值，判定所属类别——给出置信度decision_function——画出roc曲线。