【CS229机器学习】 Lecture3:正规方程的概率论解释,局部加权线性回归,过拟合,欠拟合,逻辑回归,分类问题

接上次:https://blog.csdn.net/cyr429/article/details/102300105


3.概率论解释Probabilistic interpretation

这部分要解决的问题是解释为什么代价函数:

的选择是合理有效的,为什么最小二乘回归是一个自然而然的算法。

我们先假设目标值(也就是数据集里的输出)和输入的关系定义为以下关系式:

在这里epsilon是误差项error term,表示了未能建模的影响因素(例如未能定义的权值或者随机噪声)。让我们进一步假设误差项是独立同分布(iid,independently identically distribution,在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布)在高斯分布上的,我们可以作出epsilon密度的推断:

同时这也表示了:

这里表示在参数theta之下,给出x求出y的分布,注意theta并不是自变量之一因为theta并不是随机变量,我们也可以把这个式子写作:

那么给出设计矩阵X(见2.2)和theta,y的分布又是怎样的呢。我们称这个分布的表达式为似然函数likelihood function

根据独立性假设,这个式子也可写作:

现在有了这个式子我们怎么在theta的选择上“下注”呢?根据极大似然估计,我们要选择能使 L 尽可能大的theta。同时最大化任何L “变身而成”的递增函数也能达到同样的效果,尤其在使用 log(L)时求导数会更方便一些:

很明显,最大化这个式子相当于最小化

认出来这个式子了吗?这就是前面我们用作代价函数的J(theta)。

现在总结一下,在统计学的分析下,最小二乘回归算法能够求出极大似然估计中使得L最大化的theta,所以我们认为最小二乘回归可以被视作自然而然的进行极大似然估计的算法。(同时概率论也不是证明最小二乘回归是出色算法的唯一证据)


4.局部加权线性回归Locally weighted linear regression

假设我们要根据实数x预测实数y,下面的左图显示出在某数据集上所拟合出的图像。我们能看出这些数据点并不怎么呈现一条直线,所以这个拟合并不好。

如果我们还有一个特征x^2,在拟合后我们得到上图中间的图,可以看出图像在拟合数据点时表现更好了一点,因此我们容易轻易得出越多的特征features越好的结论。但是增加太多特征也会有一些危险,上图右图是拟合的结果,虽然这条曲线完美的穿过了所有数据点,我们并不认为这是一个好的预测模型,因为它并不能预测真正的情况下的值。因此我们给出简单定义,左图的情况是欠拟合underfitting的例子,数据点显示真实的结构并没有被图像表现出来;而右图是过拟合overfitting的例子。

根据之前的讨论和上面的例子,我们可以发现特征的选择很大程度上决定了学习算法的表现(未来会有课程讲一些可以自动选择好的特征的算法)。在这一小节,我们将简短讨论局部加权线性回归算法(locally weighted linear regression,LWR)。在这一算法中,由于数据集足够大,对于特征的选择会变得不那么重要。

在最初的线性回归算法中,为了基于现有数据点进行预测,我们会:

1.拟合theta来最小化

2.输出

作为比较,lwr算法会这样做:

1.拟合theta来最小化

2.输出

这里的omega是非负的权值weight。omega越大,程序越会努力让减小,而omega越小,它会越忽视对数据点的拟合。

一个omega的标准取值是:

可以看出omega很取决于想要预测的点的位置。如果某个数据点与要预测的点在x轴上投影距离越近,|xi - x|就会越小,omega就会越接近1,如果距离远的话|xi - x|就会越大,omega就会变小。因此,在决定theta的取值时,越近的点权值越高,越远的点权值越低,这样的好处是算法会更专注于局部的趋势,缺点是即使远处的点权值较低,在计算时仍需参与计算,对于过大的数据集会消耗很大的计算量。另外注意虽然权值omega的形式与高斯分布的形式很相似,但是它与高斯分布毫无关联,因为omega并非随机分布的。参数tau是带宽参数bandwidth parameter,掌控着当距离增加时权值的衰减速度。

局部加权线性回归算法是我们接触的第一个非参数化算法non-parametric,他的参数量随着训练集的大小的增加而线性增加。而最初的线性回归算法则是参数化算法parametric,因为它有着固定的有限数量的参数,一旦theta拟合完成后,我们不需要再保留原始数据集就可以进行预测。反观lwr,我们需要一直保持完整数据集的存在才能进行预测。

End of Part1


Part2:分类和逻辑回归

这一章我们将讨论分类问题,它与线性回归问题很相似但是只预测小数量的离散值。现在我们先专注于二值分类问题。在这个问题中输出y只能取两个值之一:0或1 。例如我们要做一个识别垃圾邮件的系统,xi就是输入的某封邮件中的特征值,如果输出是1则确认这是一封垃圾邮件,0则确认不是。0也叫做负例negative class,1则是正例positive class。对于已有数据的xi,相对应的yi也叫做训练样本的标签label。


5.逻辑回归Logistic regression

我们可以直接拿线性回归的算法加上阈值来用作预测离散值,比如如果输出是0到1结果就为0,1到2的话结果就为1,但是很容易证明这种办法是十分不明智的。为了解决这个问题,我们修改 h(x) 为:

这里:

是逻辑函数或sigmoid函数,它的图像是:

可以推断出当z趋于∞的时候g(z)趋于1,当z趋于-∞的时候g(z)趋于0。而。也有其他的函数可以使用但是我们现在先用这个,在下一步之前,知道g的导数会很有帮助:

那么现在有了逻辑回归的模型怎么拟合theta呢?

我们先假设:

是不是很好理解?当然这个式子也可以变得更紧凑一点:(类似伯努利分布)

假设n个训练样本互相之间都是独立的,我们可以把参数似然值likelihood of parameters写作:

和之前一样,最大化log参数似然值会更简单一些:

那么究竟如何最大化似然值呢?与线性回归那章相似,我们可以用梯度上升gradient ascent,式子用向量写作:

这里alpha是学习速率learning rate,alpha后面的是l(theta)的梯度,注意这里与梯度下降不同用的是加号,因为我们要求最大值。至于具体的求法,我们先看只有一对训练样本(x,y)时怎么求偏导:

在以上步骤中,我们根据的是。上面这个结果给出了随机梯度上升stochastic gradient asent的更新规则:

如果我们把随机梯度上升与最小二乘回归的更新规则相比较会发现他们是相同的形式。但是这两个并不是相同的算法,因为这里的h函数被定义为非线性的。不过得到相同的形式也让人很在意,这背后更深的原理会在讨论GLM算法时给出答案。

以上。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值