线性回归公式推导总结

1.预测函数:

2.代价函数:

  • 假设每一个对象的预测值与真实值的误差为ε,即:

则由中心极限定理可知:

  • 当样本数量很多时,可假设误差ε的分布符合均值μ=0,方差为σ^2的高斯分布,即:

  • 现在的任务是在所有可能的θ中,寻找一个最适合的θ,使得误差ε呈高斯分布的可能性最大,则由似然函数有:

  • 对等式两边同时取对数求极大似然,即:

  • 综上,代价函数为:

三、梯度下降:

  • 先给出梯度下降的结论:

  • 如果能求出虚线框内的偏导数,则可以顺利完成梯度下降:

  • 综上,梯度下降的公式为:

  • 一般的,如果每更新一个参数,都要遍历一次全部数据的话,耗时太长,所有有了随机梯度下降,即每更新一个参数,只选用一个对象对应特征去更新(省时,但效果不如前者):

四、正规方程:

  • 使用梯度下降寻找最优参数比较耗时,所以当数据集的特征X符合:X的转置*X存在逆矩阵时,可采用正规方程迅速找出最优参数,即:

  • 下面给出两种推导方法:
  • 推导方法一:
  • 推导方法二(比较取巧):

转载于:https://juejin.im/post/5cd59eadf265da036b4a816f

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
局部加权线性回归(Locally Weighted Linear Regression,LWLR)是一种非参数回归方法,它的核心思想是针对不同的数据点赋予不同的权重,以使得在预测时更加关注与目标点相近的训练样本。下面来推导一下 LWLR 的公式。 首先,假设有一个数据集 $D = \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \cdots, (x^{(m)}, y^{(m)})\}$,其中 $x^{(i)}$ 表示第 $i$ 个样本的特征向量,$y^{(i)}$ 表示第 $i$ 个样本的标签值。考虑对于任意一个目标点 $x$,我们想要预测它的标签值 $y$。LWLR 的基本思路是:让与目标点 $x$ 距离越近的训练样本点对预测结果的影响越大,距离越远的训练样本点对预测结果的影响越小。 具体来说,我们定义一个以目标点 $x$ 为中心、以 $\tau$(tau)为带宽(bandwidth)的加权函数 $w(i)$,表示第 $i$ 个训练样本点对目标点的影响程度。其中,带宽 $\tau$ 是一个超参数,控制着权重函数的衰减速度。 常见的权重函数有高斯核(Gaussian kernel)和三角核(triangular kernel)等,这里以高斯核为例。高斯核的定义如下: $$ w(i) = \exp\left(-\frac{\|x^{(i)} - x\|^2}{2\tau^2}\right) $$ 其中,$\|\cdot\|$ 表示欧几里得距离。 接下来,我们考虑如何利用加权的训练样本点来预测目标点 $x$ 的标签值 $y$。LWLR 的做法是,在目标点 $x$ 附近拟合一个局部的线性模型,以训练样本点的加权平均值作为预测结果。 具体来说,我们定义一个局部的线性模型: $$ h_\theta(x^{(i)}) = \theta_0 + \theta_1 x_1^{(i)} + \cdots + \theta_n x_n^{(i)} $$ 其中,$\theta_0, \theta_1, \cdots, \theta_n$ 是线性回归的模型参数,需要通过最小二乘法来求解。对于目标点 $x$,我们希望找到一个线性模型,使得在目标点附近训练样本点的预测误差最小。因此,我们定义一个加权的均方误差(weighted mean squared error)损失函数: $$ J(\theta) = \frac{1}{2}\sum_{i=1}^m w(i)(h_\theta(x^{(i)}) - y^{(i)})^2 $$ 其中,$w(i)$ 是权重函数,表示第 $i$ 个训练样本点对目标点的影响程度。我们的目标是最小化该损失函数,即: $$ \theta^* = \operatorname{argmin}_\theta J(\theta) $$ 为了求解最小化损失函数的参数 $\theta^*$,我们需要对损失函数求偏导,得到参数的解析解。具体来说,将上式展开并求偏导数,得到: $$ \begin{aligned} \frac{\partial J(\theta)}{\partial \theta_k} &= \sum_{i=1}^m w(i)(h_\theta(x^{(i)}) - y^{(i)}) x_k^{(i)} \\ &= X^TW(X\theta - y) \end{aligned} $$ 其中,$X$ 是训练样本的特征矩阵,$W$ 是对角矩阵,对角线上的元素是权重函数 $w(i)$。将上式令其等于零,解得: $$ \theta^* = (X^TWX)^{-1}X^TWy $$ 这就是 LWLR 的参数解析解。利用该解析解,我们可以快速预测任意一个目标点 $x$ 的标签值 $y$,具体方法为: $$ h(x) = \theta_0^* + \theta_1^* x_1 + \cdots + \theta_n^* x_n $$ 其中,$\theta_0^*, \theta_1^*, \cdots, \theta_n^*$ 是利用训练集得到的参数解析解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值