1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的

本文介绍了机器学习中的监督学习,包括变量的定性、定量分类,以及两种基本的预测方法:最小二乘法和最近邻方法。最小二乘法寻找最小残差平方和的解,而最近邻方法基于输入点的近邻数据进行预测,其有效参数与近邻数量有关。两者在统计特性上各有侧重,分别对应不同的应用场景。
摘要由CSDN通过智能技术生成

(中间跳过了几个例子,感兴趣的可以去看看原书)

变量类型与术语

对于常见的机器学习模型,我们的变量都有两种类型:定性(qualititative)以及定量(quantitative)的。举个例子,{金毛,哈士奇,腊肠}就属于定性的描述,各种数字类的输出,比如当天的气温,就属于定量化的描述。定性变量有时候也称作分类变量(categorical)离散变量(discrete)

根据我们的模型输出不同,我们对模型的命名也产生了约定俗成的表达:对于输出量化值的模型,我们称为回归(regression)模型;对于输出定性值的模型,我们称为分类(classification)模型。

事实上我们还有第三种变量类型,称作有序的分类(ordered categorical)。比如{小,中,大,巨大}这样,各个分类之间存在一定的顺序关系。书中第四章会谈到它。

定性表达的变量,在计算机中,一般通过数值化表达才能够作为模型输入。我们不可能直接将“金毛”,“吉娃娃”这样的词输入模型,因为模型根本无法理解。对于二元取值空间,比如{成功,失败}{男,女}这样非黑即白的定性变量,我们直接用0-1或者1,-1这样的数值表达就可以了。如果取值空间不止二元,那么我们有很多种方式能够来表达。最常见的就是虚拟变量(dummy variable)——假设取值空间的大小为K,那么对于这个变量,我们就用长度为K的二元矢量来表示。矢量中,只有一个元素为1,代表这个具体的取值,其余部分都是0。

举个例子:假设取值空间为{金毛,吉娃娃,腊肠,边牧,哈士奇,法斗},那么变量k=[0,0,0,0,0,1]代表的就是法斗了。

最后,约定俗成地,模型的输入变量一般都用 X X 表示,模型的输出,如果是定性的,那么用 G 表示;如果是定量的,那么用 Y Y 表示。

模型预测的两种简单方法:最小二乘,最近邻

线性模型叱咤统计学领域已经有30多年了,但仍旧是最重要的工具之一。给定一个输入向量 X T = ( X 1 , X 2 , . . . , X p ) ,线性模型对输出 Y Y 的预测为:

Y ^ = β ^ 0 + j = 1 p X j β ^ j

其中, β^0 β ^ 0 是截距项,有时候也称作是偏差(bias)。一般来说,我们会在 X X 变量里加上一个常量1,把

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值