机器学习入门学习笔记(二)线性模型

一、基本形式

给定由d个属性描述的示例x=(x1;x2;…;xd),其中xi是x在第i个属性上的取值。
线性模型(linear model) 是由学习得到的一个通过 属性的线性组合 来进行预测的函数,其基本形式如下:
在这里插入图片描述
用向量形式表示为:
在这里插入图片描述
其中 w = (w1;w2;…;wd) 是各个属性的权值系数。一旦 w 和 b 学得之后,模型就得以确定。
由于w直观表达了各属性在预测中的重要性,因此线性模型有很好的 可解释性(comprehensibility)。例如:在挑选好西瓜的问题中,最终学得一下的线性函数:
在这里插入图片描述
则意味着可通过综合考虑色泽、根蒂和敲声来判断瓜好不好,其中根蒂最要紧,而敲声比色泽更重要。

线性模型的主要优点就是:形式简单、易于建模,许多功能更为强大的非线性模型(nonlinear mode)也可在线性模型的基础上通过引入层级结构或高维映射而得。

二、线性回归

给定数据集D={ (x1,y1),(x2,y2),…, (xm, ym) },其中xi=(xi1;xi2;…;xid), yi∈R。 线性回归(linear regression) 试图学得一个线性模型以尽可能准确地预测实值输出标记。

对于离散的属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值。例如:三值属性“高度”的取值“高”“中”“低”可转化为(1.0,0.5,0.0);若属性值间不存在序关系,假定有 k 个属性值,则通常转化为 k 维向量,例如属性“瓜类”的取值“西瓜”“南瓜”“黄瓜”可转化为(0,0,1),(0,1,0),(1,0,0)。

最简单的线性回归情形就是输入属性的数目只有一个的情况。线性回归试图学得如下形式(只有一个属性w的情况),即获取一个接近实际值的线性模型。
在这里插入图片描述
确定 w 和 b 的关键在于如何衡量 f(x) 与 y 之间的差别。均方误差 是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化。 均方误差有非常好的几何意义,它对应了常用的欧几里得距离或简称欧氏距离(Euclidean distance)。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

一元线性回归方程求解

求解 w 和 b 使 E(w,b) =∑i=1m (yi - wxi - b)2 最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation)。我们可将 E(w,b) 分别对 w 和 b 求导,得到
在这里插入图片描述
然后两个求导的式子为零可得到 w 和 b 最优解的闭式(closed-form)解
在这里插入图片描述在这里插入图片描述

多元线性回归

更一般的线性回归情形就是数据集D的样本由d个属性描述,此时我们试图学得以下形式:
在这里插入图片描述
同样可利用最小二乘法来对w和b进行估计。

令向量 w’=(w;b),同时把数据集D表示为一个m×(d

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值