线性回归

最新推荐文章于 2021-01-30 02:26:13 发布

小智rando

最新推荐文章于 2021-01-30 02:26:13 发布

阅读量461

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38016957/article/details/96992917

版权

机器学习专栏收录该内容

28 篇文章 1 订阅

订阅专栏

在这里插入图片描述

1、线性回归

在这里插入图片描述
回归的意思是用一条直线来概括所有点的分布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条直线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.

2、最大似然估计

最大似然估计的意思就是最大可能性估计,其内容为:如果两件事A,B相互独立,那么A和B同时发生的概率满足公式

P(A , B) = P(A) * P(B)

*P(x)表示事件x发生的概率.

这里重复下以前我们提到的观点.回归的意思是用一条直线来概括所有点的分布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条直线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.

一个事件已经观察到的维度发生的概率越大,那么对应的未观测到的维度发生的概率就会越小.可以说我们总结的规律就越准确.根据最大似然估计

P(y) = P(x1,x2 … xn)= P(x1) * P(x2) … P(xn)

当所有事情发生的概率为最大时,我们认为总结出的函数最符合这些事件的实际规律.所以我们把总结这些点的分布规律问题转变为了求得P(x1,x2 … xn)= P(x1) * P(x2) … P(xn)的发生概率最大.

若是连续值，就是对概率进行积分，引出了高斯分布的概念

3、数学推导

高斯分布

若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：

X∼N(μ,σ2),

则其概率密度函数为
在这里插入图片描述
正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是
μ = 0,σ = 1的正态分布

既然说我们要总结的事件是相互独立的,那么这里的每个事件肯定都是一个随机事件,也叫随机变量.所以我们要归纳的每个事件的发生概率都符合高斯分布.

如果将y= θ * X中的每个x带入这个公式,得到如下函数
在这里插入图片描述
求得所有的时间发生概率最大就是求得所有的事件概率密度函数结果的乘积最大,则得到:

求得 L(θ) 最大时W的值,则总结出了所有事件符合的规律.求解过程如下(这里记住,我们求得的是什么情况下函数的值最大,并不是求得函数的解):
在这里插11入图片描述
式中,m为样本的个数,π和σ为常数,不影响表达式的大小.所以去掉所有的常数项得到公式:
在这里插入图片描述
因为得到的公式是一个常数减去这个公式,所以求得概率密度函数的最大值就是求得这个公式的最小值.这个公式是一个数的平方,在我国数学资料中把他叫做最小二乘公式.所以多元线性回归的本质就是最小二乘法

4、线性回归求解

通过对最小二乘函数求导，让导函数为0时的结果，就是最小二乘的解。求导过程如下：

首先对最小二乘进行变形，变为矩阵表达形式：
在这里插入图片描述
展开矩阵函数：

在这里插入图片描述
*矩阵求导：

展开之后我们对J(θ)求导并令导数等于0：

最终求的解析解为

残差平方和：预测值和真实值的差异
类似方差项：预测值和平均值的差异
残差平方和越小，R方越接近1，预测越准

5、梯度下降

（1）批量梯度下降：

考虑到所有样本，每个样本都需要计算
（容易得到最优解，速度慢）

（2）随机梯度下降：

随机找一个样本，迭代速度快，因为样本有好有坏，所以不一定每次都朝着收敛的方向

（3）小批量梯度下降：

（每次更新选择一小部分数据来算，较实用）

6、tensorflow实战

小智rando

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归

1、线性回归回归的意思是用一条直线来概括所有点的分布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条直线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.2、最大似然估计最大似然估计的意思就是最大可能性估计,其内容为:如果两件事A,B相互独立,那么A和B同时发生的概率满足公式P(A , B) = P...
复制链接

扫一扫

专栏目录