作者:禅与计算机程序设计艺术
1.简介
在信息爆炸时代,我们通常使用机器学习进行数据分析、预测或分类任务。然而,在现实生活中,很多时候并不仅仅只存在一个目标变量,而且还有许多相关变量(称为特征)。因此,如何利用这些相关变量对目标变量进行建模是一个重要课题。
有监督学习可以分为两种类型——分类和回归。其中分类任务就是根据已知的输入样本预测其所属类别(比如垃圾邮件判定为“spam”还是“non-spam”,手写数字识别为0~9之间的某一种),而回归任务则是在给定的输入特征预测输出值(比如房价预测、销售额预测等)。
当我们需要对拥有多个相关变量的目标变量进行建模的时候,有监督学习就变得复杂起来了。但实际上,即使只有一个相关变量,也可能出现特征之间存在共线性关系的问题。举个例子,假如我们的目标变量是体重,那么身高这个变量与体重存在高度的正相关关系,也就是说,当我们提高或者降低身高的时候,会同时发生相应的体重变化。这时如果没有考虑到身高这个变量,很可能会造成估计偏差较大的情况。因此,为了解决这一问题,有人提出了“加权最小二乘法”来对目标变量进行建模,也就是对每个特征赋予不同的权重,使得共线性关系得到更好的处理。
但是,以上方法只是解决了共线性问题的一部分。对于其他一些异常点,仍