1.ESL笔记：监督学习综述（1）——从最小二乘和最近邻想开的

最新推荐文章于 2021-07-13 10:01:38 发布

深度学习深度近视

最新推荐文章于 2021-07-13 10:01:38 发布

阅读量608

点赞数

分类专栏：书籍文章标签：机器学习统计

本文链接：https://blog.csdn.net/qq_27262673/article/details/79535166

版权

本文介绍了机器学习中的监督学习，包括变量的定性、定量分类，以及两种基本的预测方法：最小二乘法和最近邻方法。最小二乘法寻找最小残差平方和的解，而最近邻方法基于输入点的近邻数据进行预测，其有效参数与近邻数量有关。两者在统计特性上各有侧重，分别对应不同的应用场景。

摘要由CSDN通过智能技术生成

（中间跳过了几个例子，感兴趣的可以去看看原书）

变量类型与术语

对于常见的机器学习模型，我们的变量都有两种类型：定性（qualititative）以及定量（quantitative）的。举个例子，{金毛，哈士奇，腊肠}就属于定性的描述，各种数字类的输出，比如当天的气温，就属于定量化的描述。定性变量有时候也称作分类变量（categorical）或离散变量（discrete）。

根据我们的模型输出不同，我们对模型的命名也产生了约定俗成的表达：对于输出量化值的模型，我们称为回归（regression）模型；对于输出定性值的模型，我们称为分类（classification）模型。

事实上我们还有第三种变量类型，称作有序的分类（ordered categorical）。比如{小，中，大，巨大}这样，各个分类之间存在一定的顺序关系。书中第四章会谈到它。

定性表达的变量，在计算机中，一般通过数值化表达才能够作为模型输入。我们不可能直接将“金毛”，“吉娃娃”这样的词输入模型，因为模型根本无法理解。对于二元取值空间，比如{成功，失败}，{男，女}这样非黑即白的定性变量，我们直接用0-1或者1,-1这样的数值表达就可以了。如果取值空间不止二元，那么我们有很多种方式能够来表达。最常见的就是虚拟变量（dummy variable）——假设取值空间的大小为K，那么对于这个变量，我们就用长度为K的二元矢量来表示。矢量中，只有一个元素为1，代表这个具体的取值，其余部分都是0。

举个例子：假设取值空间为{金毛，吉娃娃，腊肠，边牧，哈士奇，法斗}，那么变量k=[0,0,0,0,0,1]代表的就是法斗了。

最后，约定俗成地，模型的输入变量一般都用 $X$ 表示，模型的输出，如果是定性的，那么用 $G$ 表示；如果是定量的，那么用 $Y$ 表示。