CS229学习笔记之概率解释与局部加权线性回归

系列第二篇~

线性回归模型的概率解释

在线性回归中,为什么要选择最小二乘函数作为代价函数?我们可以用概率模型来对其进行解释。

概率模型

假设真实值与输入之间满足如下等式:

y(i)=θTx(i)+ϵ(i)

其中 ϵ(i) 是误差项,表示没有被建模的因素或是随机噪声。进一步假设误差项是独立同分布的,那么根据中心极限定理,大量相互独立的随机变量之和是符合正态分布(可以理解为大量独立随机变量的大部分误差会相互抵消),即 ϵ(i)(0,σ2) ,那么有:
p(ϵ(i))=12πσexp((ϵ(i))22σ2)

因为误差的概率和预测出真实值的概率是一样的,因此:
p(y(i)x(i);θ)=12πσexp((y(i)θTx(i))22σ2)

注意,这里 p(y(i)x(i);θ) 不同于 p(y(i)x(i),θ) ,这里指给定 x(i) ,以 θ 为参数的 y(i) 的分布,因为对于训练集, θ 是客观存在的,只是当前还不确定,所以有
y(i)x(i);θ(θTx(i),σ2)

即真实值应该是以预测值为中心的一个正态分布。

似然函数

给定训练集 X 和参数 θ ,预测结果等于真实结果的概率,将其看作 θ 的函数,可以理解为 θ 为真实 θ 的可能性(似然性),即:

L(θ)=L(θ;X,y⃗ )=p(y⃗ X;θ)

因为假设 ϵ(i) 是独立的(即给定 x(i) y(i) 也是独立的),所以有:
L(θ)=i=1mp(y(i)x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

现在,我们可以通过 最大似然法,即找出使 L(θ) 最大的那个 θ ,作为对参数 θ 的最佳取值。

实际应用中,为了简化计算,通常不直接求似然函数的最大值,而是采用对数似然函数:

(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ212i=1m(y(i)θTx(i))2

因此,最大化 l(θ) 就是最小化:
12i=1m(y(i)θTx(i))2

而这正是我们之前提出的 最小二乘代价函数

注意点:

  • 概率解释只是对最小二乘法的一种合理解释,其实还有其他的解释方法
  • θ 的选择并不依赖于 σ2 ,即使它是未知的

局部加权线性回归

欠拟合与过拟合

对于传统的线性回归,特征的选择极为重要,对于下面三幅图,我们称第一幅图的模型是欠拟合,第三幅图的模型则是过拟合

这里写图片描述

可以看出,找到一个全局的线性模型去拟合整个训练集,并不是一件简单的事情,往往会引起欠拟合或是过拟合的发生,对于这种情况之后会给出解决方案,而这里我们提出了另外一种思路,即局部线性加权回归,这种方案可以使特征的选择的重要性降低。

算法思路

局部线性加权回归的思路是并不去拟合整个训练集来产生全局的模型,而是在每次预测时,只去拟合给定输入x附近的一小段训练集,无论全局训练集是怎样的一条分布曲线,在局部小段数据上,都可以用线性去逼近。具体步骤如下:

1.2.Fitθto minimizeiω(i)(y(i)θTx(i))2OutputθTx

这里 ω(i) 是非负 权重,一般取为
ω(i)=exp((x(i)x)22τ2)
(当x为向量时表达式有所不同)

可以看出,离给定输入越近的样本点权重越大,拟合程度越高。

注意: ω(i) 的定义与高斯分布类似,但并没有关系,分布曲线同为钟型。 τ 称为带宽参数,用来控制钟型曲线的顶峰下降速度,即权重变化的快慢,需要根据具体情况作出调整。

参数与非参数

局部加权线性回归本质上是一种非参数学习算法,而传统的线性回归是一种参数学习算法

两者的区别在于参数学习算法有一组有限的、固定的参数,一旦完成拟合,只需要保存下参数值做预测,而不需要保存完整的训练集;而非参数学习算法由于参数不固定,所以需要保存完整的训练集来进行预测,而不仅仅是保存参数。

非参数导致的结果:为了表达假设h而保存的数据将随着训练集的大小而线性增长。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值