相关性可以歇菜了，介绍预测能力得分（PPS）

最新推荐文章于 2022-11-16 07:15:00 发布

linjingyg

最新推荐文章于 2022-11-16 07:15:00 发布

阅读量509

点赞数

文章标签：深度学习机器学习人工智能

原文链接：https://www.jianfei8.net/

版权

　　我们定义并开放了预测能力得分（PPS）。 PPS是可以在数据中找到更多模式的关联的替代方法。

　　相关性有太多问题

　　现在是星期五下午，您的老板告诉您，数据传递令人惊讶地提前到来了-来回仅4周。这是您的预测模型缺少的部分。您很兴奋，但也有点着急，因为您知道接下来的事情：浏览数据。所有。 45.列。这将花费许多小时，但您知道这是值得的，因为如果没有数据了解，您就会失明。一个显而易见的步骤是查看所有单变量列分布。但这还不够。

　　您问自己：列之间存在什么关系？

　　要回答这个问题，您只需重复典型的练习即可：计算相关矩阵并检查一些令人惊讶的关系。每当您感到惊讶时，您都花一点时间绘制手头两列的散点图，看看您是否可以理解。希望您可以，但通常却不能，因为您根本不知道这些列的含义。但这是另一天的故事。

　　在检查了相关矩阵之后，您继续前进，甚至不知道自己不知道的（可怕的）。

　　我们花一点时间来回顾一下相关性。分数在-1到1之间，表示是否存在强线性关系（正向还是负向）。到现在为止还挺好。但是，分数根本无法检测到许多非线性关系。例如，窦波，二次曲线或神秘阶跃函数。分数将是0，表示："这里没什么有趣的"。同样，仅为数字列定义相关性。因此，让我们删除所有类别列。在我的上一个项目中，超过60％的列是分类的，但是，嘿。没关系。不，我不会转换这些列，因为它们不是序数，并且OneHotEncoding将创建一个矩阵，该矩阵具有比宇宙中原子更多的值。

　　> Too many scenarios where the correlation is 0. This makes me wonder if I missed something… (Excer

　　如果您受过良好的教育，您会知道相关矩阵是对称的。因此，您基本上可以扔掉一半。太好了，我们在那里节省了一些工作！还是我们？对称性意味着无论您计算A与B的相关性还是B与A的相关性，相关性都是相同的。但是，现实世界中的关系很少是对称的。关系经常是不对称的。这是一个例子：上次检查时，我的邮政编码60327告诉陌生人我住在德国法兰克福。但是，当我只告诉他们我的城市时，他们却永远无法推断出正确的邮政编码。 PFF…业余爱好者。另一个例子是：具有3个唯一值的列将永远无法完美预测具有100个唯一值的另一列。但是事实可能恰恰相反。显然，不对称很重要，因为它在现实世界中非常普遍。

　　考虑到相关性的那些缺点，我开始怀疑：我们可以做得更好吗？

　　要求：去年的一天，我梦见一个分数，该分数将告诉我两列之间是否存在任何关系-无论该关系是线性，非线性，高斯还是仅被外星人知道。当然，分数应该是不对称的，因为我想检测城市和邮政编码之间的所有奇怪关系。如果没有关系，则分数应为0；如果存在完美的关系，则分数应为1。锦上添花的是，该分数应该能够立即解决分类和数字列的问题。为我所有的学术朋友总结一下：两个列之间的预测关系的不对称，数据类型不可知分数，范围从0到1。

　　计算预测能力得分（PPS）

　　首先，没有一种唯一的方法来计算预测能力得分。实际上，有许多种方法可以计算出满足前面提到的要求的分数。因此，我们宁可将预测能力得分视为一系列得分的框架。

　　假设我们有两列，并且想要计算A预测B的预测能力得分。在这种情况下，我们将B作为目标变量，将A作为我们的（唯一）特征。现在，我们可以计算交叉验证的决策树，并计算合适的评估指标。当目标是数字时，我们可以使用决策树回归器并计算平均绝对误差（MAE）。当目标是分类时，我们可以使用决策树分类器并计算加权F1。您也可以使用ROC等其他分数，但由于我们还有另一个问题，让我们将这些疑问搁置一秒钟。

　　如果不将其与基准进行比较，大多数评估指标将毫无意义。

　　我想大家都知道这种情况：您告诉奶奶您的新车型F1得分为0.9，所以她不像您那样兴奋。实际上，这对她来说是非常聪明的，因为她不知道有人能得分0.9还是您是成千上万了不起的KAGGLErs尝试过后第一个得分超过0.5的人。因此，我们需要"标准化"我们的评估分数。您如何标准化分数？您定义一个上限和下限，然后将分数记入透视图。那么下限和上限应该是多少？让我们从上限开始，因为通常这比较容易：理想的F1是1。理想的MAE是0。做完了但是下限呢？实际上，我们不能绝对地回答这个问题。

　　下限取决于评估指标和您的数据集。这是天真的预测器实现的价值。

　　如果您的F1分数达到0.9，则可能会非常糟糕或非常好。如果您的超级癌症检测模型始终预测为"良性"，并且在该高度偏斜的数据集上仍得分为0.9，则显然不是那么好。因此，我们需要为一个非常幼稚的模型计算分数。但是什么是天真的模型？对于分类问题，总是预测最普通的类是非常幼稚的。对于回归问题，始终预测中位数非常幼稚。

　　让我们看一个详细的虚构示例：

　　回到邮政编码和城市名称的示例。想象两列都是分类的。首先，我们要计算到城市的邮政编码的PPS。因为城市是分类的，所以我们使用加权F1分数。我们的经过交叉验证的决策树分类器得分为0.95 F1。我们通过始终预测最常见的城市并获得0.1 F1的分数来计算基线分数。如果对分数进行归一化，则应用以下归一化公式后，最终的PPS将为0.94：（0.95-0.1）/（1-0.1）。正如我们所看到的，PPS得分为0.94相当高，因此邮政编码似乎对城市具有良好的预测能力。但是，如果我们在相反方向上计算PPS，则可能会获得接近0的PPS，因为决策树分类器并不比总是预测最常用的邮政编码好得多。

　　请注意：MAE的归一化公式与F1不同。对于MAE，越低越好，最佳值为0。

　　将PPS与相关性进行比较

　　为了更好地了解PPS及其与相关性之间的差异，我们来看以下两个示例：

　　示例1：非线性效应和不对称

　　> Example 1: Comparison of Correlation to PPS for y=x2

　　让我们使用一种典型的二次关系：特征x是一个统一变量，范围是-2到2，目标y是x的平方加上一些误差。在这种情况下，x可以很好地预测y，因为存在明显的非线性二次关系-毕竟这就是我们生成数据的方式。但是，这在从y到x的另一个方向上是不正确的。例如，如果y为4，则无法预测x大约为2还是-2。因此，预测关系是不对称的，得分应反映这一点。