MachineLearning—Linear Regression（二）

最新推荐文章于 2022-10-31 22:30:24 发布

令狐公子

最新推荐文章于 2022-10-31 22:30:24 发布

阅读量1k

点赞数

分类专栏： Machine Learning 文章标签： Machine Learning 线性回归机器学习 Linear Regression 算法原理推导

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_14959801/article/details/51001134

版权

Machine Learning 专栏收录该内容

35 篇文章 3 订阅

订阅专栏

本篇博文接上一篇线性回归部分MachineLearning-Linear Regression(一)；主要讲解记录线性回归的理论推导，资料主要参考Andrew的机器学习公开课的讲义notes。包括最小均方误差、等高线图、矩阵求导来简化LMS、最大似然解释、局部权重线性回归等内容。

知识储备极大似然估计：

θ表示未知参数，也就是等待被估计的那个参数，x1,x2......xn是样本X1,X2......Xn的样本值，最大似然估计其结果就是用已知的样本中的样本值来估计表示未知的等待被估计的θ。此外我们应该了解两个概念即，离散变量的P称为概率分布，连续变量的P则称为概率密度。在进入极大似然估计之前我们首先通过一个例子来回顾一下极大似然估计的求解过程：

首先写出总体X的概率分布，我们称其为联合分布律

这个式子要特别留意一下，如果不熟悉的话，通常会忘记如何去写这个联合概率分布

注意事件发生记为x=1，不发生记为x=0，则

=

这个事件发生的概率记为P，把P记为L（p）的形式（注意右边的表达式）

现在这个（X1=x1,X2=x2......Xn=xn）事件发生了，我们应选择能使这个事件发生的概率最大的θ。现在事情就变成了我们要最大化P，即最大化L(p)，因为单调递增性不变又转化为最大化Ln[L(p)]的形式，

这就求出了p的最大似然估计值，可见就是利用观测样本值x1,x2......xn来表示待估计参数p

由此我们引出最大似然估计的一般解释：

=

L(x1,x2,......xn,θ)=L(θ)，xi=u1,u2,... i=1,2,......n θ∈【】，其中L(θ)为样本的似然函数

L(x1,x2......xn,θ')=max {f(x1,θ)f(x2,θ)......f(xn,θ)} θ∈【】称这样得到的θ'=g(x1,x2......xn)为参数θ的极大似然估计值，

如果参数为多个时则为:

线性回归理论部分：

Andrew开头使用了房价预测的例子，简单易懂，可以看出线性回归就是要找到那条最能拟合样本点分布的直线，用这条回归线来预测房价：即预测一个确定的数值；

就是我们最终要求出来的那条线，x0通常取1;x代表的就是影响房价的各种特征值，θ就是这些特征所具有的权值；

定义损失函数，损失函数所表达的意义就是我们求出的h与实际的房价y之间的误差，我们就要最小化这个误差J；

使用梯度下降算法gradient descent来不断的更新权重θ首先我们会初始化θ一个值，对J求梯度我们可以得出沿J下降最陡峭的一个方向，（注意J是θ的函数），定义一个学习速率α，或者称其为下降步幅，最终一步一步找到最优解。

最终的更新形式为：

m个样本点以及每个样本点中的特征xj，θj都是同时进行的。until convergence在上一篇博文中我们使用迭代1500次作为终止条件；

我们看一下在程序中这个过程是如何实现的

Normal Equation：使用矩阵求导的方法简化了上面的计算过程

X是一个m*n的矩阵（x0,x1......xj,xn的形式），m个样本点，n个特征，θ是列向量（竖着的）；

具体过程Andrew已经给出了非常详尽的推导过程，具体可以参见下图：

最后得出θ的表达计算式，在实际中可以直接调用，省去很多麻烦

概率解释(Probabilistic interpretation):

ε（i）代表噪声，比如没有考虑在regression内的某些特征，实践表明噪声往往都是符合正态分布的；所以

说明 y(i) | x(i); θ ∼ N (θT*x(i), σ2)；我们要最大化事件发生的概率P，使用极大似然估计也就是最大化下式：

最大化L(θ)最终转化为最小化

即J（θ）

综上最小均方误差其实就是使用极大似然估计法去估计未知参数θ的一个过程。

局部权值线性回归：

经常会出现左图欠拟合和右图过拟合的现象，为了避免这种情况得到最佳的中间图

与前面的不同，我们要尝试最小化其中

假设x是我们要预测的，当xi离x距离较近时，w(i)的值比较大接近于1，则我们还是最小化损失函数J

当xi距离x较远时，则w(i)趋近于0，则∑趋近于0，这种情况下的xi不在考虑范围内；综上局部加权线性回归的思想就是利用x附近的点去估计参数θ，距离x较远的则不予考虑。

参考资料：

http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning

http://www.cnblogs.com/hust-ghtao/p/3587971.html?utm_source=tuicool&utm_medium=referral

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。