4.1 分类
第三章讨论的线性回归模型假设变量Y是定量的。但在许多情况下,响应变量是定性的。例如,眼睛的颜色是定性的,呈现蓝色、棕色或绿色。定性变量通常被称为范畴变量;我们将交替使用这些术语。在本章中,我们研究了预测定性反应的方法,这个过程被称为分类。预测observation的定性反应可以被称为对观察的分级,因为它涉及到将观察分配给一个类别或类。另一方面,分类所用的方法通常首先预测定性变量的每一类的概率,作为分类的基础。从这个意义上讲,它们的行为也类似于回归方法。这里有许多可能的分类技术或分类器,可以用来预测定性反应。我们在第2.1.5和2.2.3节中提到了其中的一些内容。在这一章中,我们讨论了最广泛使用的三个分类器:逻辑回归、线性判别分析和k近邻。我们将在后面的章节中讨论更多的计算机密集型方法,例如广义加法模型(第7章)、树、随机森林和boost(第8章)以及支持向量机(第9章)。
4.1.1 分类
一个特征向量X和一个定性响应Y值(属于集合C),分类任务是构建一个以特征向量X为输入并预测其Y值的函数C(X);即C(X)EC。
通常我们更感兴趣的是估计X属于C中的每一类的概率。
我们感兴趣的是根据年收入和每月信用卡余额来预测个人是否会在信用卡支付上违约。数据集如图所示。我们绘制了1万名个人的年收入和每月信用卡余额。图左边的面板显示了在某个月里违约的个人,橙色的,不违约的,蓝色的。(总体违约率约为3%,所以我们只绘制了一部分没有违约的个人。)似乎违约的个人比没有违约的人有更高的信用卡余额。在图4.1的右侧面板中显示了两对箱线图。首先展示了由二进制默认变量分割的平衡分布;第二个是类似的收入图表。在本章中,我们将学习如何建立一个模型来预测任意给定余额(X1)和收入(X2)的默认值(Y)。由于Y不是定量的,所以第3章的简