【机器学习】线性回归算法概念和最小二乘法数学推导

线性回归算法和最小二乘法数学推导



前言

本文主要介绍线性回归算法的基本概念,并拓展 理解线性回归算法其中的一些数学原理


一、线性回归其中的基本数学概念

1.回归的概念

回归(regression to mean),意为回归平均值,是指通过历史数据的推算给出期望值,并将期望值作为预测值。而线性回归的原理则就是最小二乘法

2.误差分析

误差 ε i \varepsilon _ i εi等于第i个样本实际的值, y i y_i yi减去预测的值, y ^ \hat y y^,公式可以代表如下:
ε i = ∣ y i − y ^ ∣ \varepsilon_i = |y_i - \hat y| εi=yiy^
ε i = ∣ y i − W T x i ∣ \varepsilon_i = |y_i - W^Tx_i| εi=yiWTxi
假设所有的样本误差都是独立的,当足够多的随机变量叠加之后形成的分布,它服从的分布就是正态分布。

3.最大似然估计

最大似然估计(maximum likelihood estimation,MLE)一种重要而普遍的求估计量的方法。最大似然估计明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树,最大似然估计是一类完全基于统计的系统发生树重建方法的代表。

4.高斯分布-概率密度函数

最常见的连续概率分布是正态分布,也叫做高斯分布,其概率密度函数如下:
f ( x ∣ μ , δ 2 ) = 1 2 π δ e − ( x − μ ) 2 2 δ 2 f(x|\mu,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(x-\mu)^2}{2\delta^2}} f(xμ,δ2)=2πδ 1e2δ2(xμ)2
随着参数 μ \mu μ和参数 δ \delta δ的变化,概率分布也会产生变化。
通过假设数据的误差服从一个高斯分布,并且通过截距项平移整体分布的位置从而使得 μ = 0 \mu = 0 μ=0,送一样本误差我们可以表示表达其概率密度函数的值如下所示:
f ( ε ∣ μ = 0 , δ 2 ) = 1 2 π δ e − ( ε − 0 ) 2 2 δ 2 f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(\varepsilon-0)^2}{2\delta^2}} f(εμ=0,δ2)=2πδ 1e2δ2(ε0)2
简化为:
f ( ε ∣ μ = 0 , δ 2 ) = 1 2 π δ e − ε 2 2 δ 2 f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{\varepsilon^2}{2\delta^2}} f(εμ=0,δ2)=2πδ 1e2δ2ε2

二、最小二乘法MSE

1.误差总似然

P = ∏ i = 0 n f ( ε i ∣ 0 , δ 2 ) = ∏ i = 0 n 1 2 π ε e − ε i 2 2 δ 2 P = \prod_{i = 0}^nf(\varepsilon_i|0,\delta^2) = \prod_{i =0}^n\frac{1}{\sqrt{2\pi\varepsilon}}e^{-\frac{\varepsilon_i^2}{2\delta^2}} P=i=0nf(εi∣0,δ2)=i=0n2πε 1e2δ2εi2

P w = ∏ i = 0 n 1 2 π δ e − ε i 2 2 δ 2 P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{\varepsilon_i^2}{2\delta^2}} Pw=i=0n2πδ 1e2δ2εi2
根据 ε i = ∣ y i − W T x i ∣ \varepsilon_i = |y_i - W^Tx_i| εi=yiWTxi可以推导出来如下的公式:
P w = ∏ i = 0 n 1 2 π δ e − ( y i − W T x i ) 2 2 δ 2 P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\delta^2}} Pw=i=0n2πδ 1e2δ2(yiWTxi)2

2.log函数的基本的运算法则

  • l o g a ( X Y ) = l o g a X + l o g a Y log_a(XY) = log_aX + log_aY loga(XY)=logaX+logaY
  • l o g a X Y = l o g a X − l o g a Y log_a\frac{X}{Y} = log_a X - log_aY logaYX=logaXlogaY
  • l o g a X n = n ∗ l o g a X log_aX^n = n * log_aX logaXn=nlogaX
  • l o g a ( X 1 , X 2 . . . X n ) = l o g a X 1 + l o g a X 2 + . . + l o g a X n log_a(X_1,X_2...X_n) = log_aX_1 + log_aX_2 + .. + log_aX_n loga(X1,X2...Xn)=logaX1+logaX2+..+logaXn
  • l o g X X n = n log_XX^n = n logXXn=n
  • l o g a 1 X = − l o g a X log_a\frac{1}{X} = -log_aX logaX1=logaX
  • l o g a N y x = y x l o g a N log_a\sqrt[x]{N^y} = \frac{y}{x}log_aN logaxNy =xylogaN

3.将累乘问题转换成累加问题

l o g e ( P w ) = l o g e ( ∏ i = 0 n 1 2 π δ e − ( y i − W T x i ) 2 2 π δ ) log_e(P_w) = log_e(\prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}}) loge(Pw)=loge(i=0n2πδ 1e2πδ(yiWTxi)2)

= ∑ i = 0 n l o g e ( 1 2 π δ e − ( y i − W T x i ) 2 2 π δ ) =\sum_{i = 0}^n log_e (\frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}}) =i=0nloge(2πδ 1e2πδ(yiWTxi)2)
= ∑ i = 0 n ( l o g e 1 2 π δ − 1 δ 2 ⋅ 1 2 ( y i − W T x i ) 2 ) =\sum_{i = 0}^{n}(log_e\frac{1}{\sqrt{2\pi\delta}} - \frac{1}{\delta^2}\cdot \frac12(y_i - W^Tx_i)^2) =i=0n(loge2πδ 1δ2121(yiWTxi)2)
其中求最大值的问题可以转换成最小值的问题,也就是求:
L ( W ) = 1 2 ∑ i = 0 n ( y i − W T x i ) 2 L(W) = \frac12\sum_{i = 0}^n (y_i - W^Tx_i)^2 L(W)=21i=0n(yiWTxi)2
的最小值,L代表Loss,表示损失函数,损失函数越小,最上方的最大似然就越大,可以看出,完成了正规方程的推导

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
逻辑回归是一种用于二分类问题的机器学习算法,它通过建立一个逻辑回归模型来预测样本的类别概率。在推导逻辑回归算法数学原理时,我们将使用最大似然估计的方法。 假设我们有一个训练数据集,包含n个样本点。每个样本点由输入向量x和对应的类别标签y组成,其中x ∈ R^d,y ∈ {0, 1}。 逻辑回归的目标是建立一个模型,能够根据输入向量x预测出样本属于类别1的概率P(y=1|x)。 为了建立逻辑回归模型,我们使用逻辑函数(或称为sigmoid函数)将线性模型的输出转化为概率值。逻辑函数的形式为: g(z) = 1 / (1 + e^(-z)) 其中,z是线性模型的输出。在逻辑回归中,我们假设线性模型可以表示为: z = w^Tx + b 其中,w是权重向量,b是偏置项。 根据最大似然估计的思想,我们希望找到一组最优的参数w和b,使得在给定训练数据集下,模型对每个样本属于类别1的概率P(y=1|x)尽可能接近其真实标签y。 假设训练数据集中的样本是独立同分布的,我们可以构造似然函数来描述模型的拟合度。对于一个样本点(x, y),似然函数可以表示为: L(w, b) = P(y=1|x)^y * P(y=0|x)^(1-y) 为了简化计算,我们可以将似然函数取对数,得到对数似然函数: l(w, b) = log(L(w, b)) = y * log(P(y=1|x)) + (1-y) * log(P(y=0|x)) 我们的目标是最大化对数似然函数。为了实现这个目标,我们可以通过最小化负对数似然函数来转化为一个优化问题: minimize: -l(w, b) 接下来,我们可以使用梯度下降等优化算法来求解上述优化问题。通过计算负对数似然函数的梯度,并不断更新参数w和b,直到收敛为止。 具体地,我们可以计算负对数似然函数关于参数w和b的偏导数,并进行参数更新。更新规则可以表示为: w := w - α * ∂l/∂w b := b - α * ∂l/∂b 其中,α是学习率,控制参数更新的步长。 通过迭代执行上述更新步骤,我们可以逐渐优化参数w和b,找到最大似然估计下的最优解。 总结起来,逻辑回归算法数学原理是通过最大似然估计的方法,构建逻辑回归模型,将线性模型的输出通过逻辑函数转化为概率值。通过最小化负对数似然函数,使用梯度下降等优化算法来求解模型的参数。最终,我们可以根据模型的参数来预测样本属于类别1的概率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值