使用特征_了解使用相关矩阵和散点图的特征提取

本文探讨了在机器学习中如何通过相关矩阵和散点图分析来理解特征的重要性。相关性分析帮助识别哪些特征对输出变量影响显著,哪些可能是冗余或不相关的。通过去除无关特征和冗余特征,可以提高模型的准确性和效率。高相关性的特征在决定输出时具有重要意义,而低相关性特征可能导致模型噪声。
摘要由CSDN通过智能技术生成

任何典型的机器学习或深度学习模型都可以从结构化或非结构化的大量数据中提供单个输出。这些因素可能会以各种系数和程度影响所需的结果。需要根据它们在确定输出时的重要性以及考虑这些因素中冗余度,以某种方式将它们过滤掉

在监督学习中,我们知道总是有一个输出变量和n个输入变量。为了非常清楚地理解这个概念,让我们以一个简单的线性回归问题为例。

在简单的线性回归模型中,我们最终从形式为y = mx + c的模型生成一个方程,其中x是自变量,而y是因变量。由于只有一个变量,因此y必须取决于x的值。尽管在计算从A到B的巴士的平均速度时,虽然实时可能很少有其他被忽略的外部因素,例如空气阻力。这些因素无疑会对输出产生影响,但影响最小。在这种情况下,我们的常识和经验有助于我们选择因素。因此,我们选择驾驶员赋予公交车的加速度,而忽略空气阻力。但是,对于复杂的情况呢,我们不知道输入变量在输出上的重要性。数学可以解决这个难题吗?

相关性是一种统计量度,指示两个或多个变量一起波动的程度。简而言之,它告诉我们一个变量对另一个变量的轻微变化有多少变化。根据更改的方向,它可能取正值,负值和零值。因变量和自变量之间的相关性值较高,表明自变量在确定输出时具有非常高的意义。在具有许多因素的多元回归设置中,必须找到因变量和所有自变量之间的相关性,以建立具有更高准确性的更可行的模型。必须始终记住,更多的特征并不意味着更好的准确性。 如果更多特征包含任何不相关的特征,则可能会导致准确性下降,从而在我们的模型中产生不必要的噪声。

让我们首先对每个自变量分别应用线性回归,以可视化与自变量的相关性。

780cf9d5418e2223550949607c2daf8b.png

从散点图中可以看出,R&D支出与利润之间具有很高的相关性,这意味着与R&D支出相比,预测产出和营销支出与利润的相关性较小。

746242d7dd725eabb0fbcc9ebebf23ba.png

但是,“管理”和“获利”之间的分散表明,它们之间的相关性很小,并且可能最终在预测过程中产生噪声。因此,我们可以在模型中排除此特征以获得更好的结果。

此过程消除了我们模型的无关紧要的功能。但是,冗余功能呢?

冗余特征:尽管某些特征与我们的目标变量高度相关,但它们可能是冗余的。如果高度相关,则任何两个自变量都被认为是多余的。这导致不必要的时间和空间浪费。甚至可以使用相关性找到两个变量之间的冗余。

注意:期望因变量和自变量之间具有高度相关性,而不希望2个自变量之间具有高度相关性。

ffc823ce9b30e6dc572c752b0f4c8a47.png

上面的2个图显示了自变量之间的相关性。我们可以在第一个图中看到较高的相关性,而在第二个图中则看到非常低的相关性。这意味着我们可以排除第一张图中的两个特征中的任何一个,因为两个独立变量之间的相关性会导致冗余。但是要删除哪一个?答案很简单。与目标变量具有较高相关性的变量将保留,而另一个将被删除。

  • 具有低相关性的自变量导致较低的r2分数
  • 具有较高相关性的变量在模型中为我们提供了更高的r2得分(例如:R&D支出和Marketing支出)
  • 消除冗余变量或不相关的变量可能/可能不会导致我们精度的损失可忽略不计,但使其在许多约束下成为非常有效的模型。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值