机器学习数学基础之线性回归


(本文为学习总结笔记,如有雷同请无视)

知识点:
1、利用矩阵的只是对线性公式进行整合
2、误差项的分析
3、似然函数的理解
4、矩阵求偏导
5、线性回归的最终求解

1. 线性回归公式

y = w k + b y = wk +b y=wk+b

其中b为误差值,对最终的结果影响较小。
线性回归中最重要的求解即为求w。
线性回归在有监督的情况下使用——先利用一定的已知数据进行求解w,再根据w与输入的x求得y

2. 利用矩阵对线性公式整合

线性回归的特征值一般有很多个,即存在很多x。
因此一个线性回归可表示为:(不考虑误差项b的时候)
h θ ( x ) = θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n h_{\theta}(x)=\theta_1 x_1+\theta_2 x_2 +\cdots + \theta_n x_n hθ(x)=θ1x1+θ2x2++θnxn

h θ ( x ) = ∑ i = 1 n θ i x i h_{\theta}(x)=\displaystyle\sum_{i=1}^n \theta_i x_i hθ(x)=i=1nθixi

将上述公式转换为矩阵的形式
提取特征和系数:
[ θ 1 , θ 2 , ⋯   , θ i ] [ \theta_1,\theta_2,\cdots,\theta_i] [θ1,θ2,,θi]

[ x 1 , x 2 , ⋯   , x i ] [ x_1,x_2,\cdots,x_i] [x1,x2,,xi]

因此,可知:
h θ ( x ) = θ T x h_{\theta}(x)=\theta^T x hθ(x)=θTx

3. 误差项分析

当误差项满足高斯分布的时候,才可以使用线性回归

根据以上得出的结果,可将上述公式添加误差项,得到如下:
h θ ( x ) = θ T x + ε h_{\theta}(x)=\theta^T x + \varepsilon hθ(x)=θTx+ε

误差项是独立且具有相同的分布,并且服从均值为0,方差为θ平方的高斯分布

4. 似然函数

y i = θ T x i + ε i y^{i}=\theta^T x^{i} + \varepsilon^{i} yi=θTxi+εi

由于误差项满足高斯分布,因此误差项的概率值如下:

φ ( ε i ) = 1 2 π σ e ( − − ( ε i ) 2 2 σ 2 ) \varphi(\varepsilon_{i}) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{-(\varepsilon^{i})^2}{2\sigma^{2}})} φ(εi)=2π σ1e(2σ2(εi)2)

再把函数带入,消去误差项,得:
P ( y i ∣ x i ; θ ) = 1 2 π σ e ( − ( y i − θ T x i ) 2 2 σ 2 ) P(y_i | x_i;\theta) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})} P(yixi;θ)=2π σ1e(2σ2(yiθTxi)2)

误差项越小越好,引入似然函数的作用:根据样本来求能够最接近真实值的参数和特征的组成。
得到似然估计函数:
L ( θ ) = ∏ i = 1 m P ( y i ∣ x i ; θ ) = ∏ i = 1 m 1 2 π σ e ( − ( y i − θ T x i ) 2 2 σ 2 ) L(\theta)=\prod^m_{i=1} P(y_i | x_i;\theta) = \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})} L(θ)=i=1mP(yixi;θ)=i=1m2π σ1e(2σ2(yiθTxi)2)
目的即为取得似然函数最大
接下来进行取对计算,从而对极大似然函数求解
l o g L ( θ ) = l o g ∏ i = 1 m 1 2 π σ e ( − ( y i − θ T x i ) 2 2 σ 2 ) logL(\theta) =log \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})} logL(θ)=logi=1m2π σ1e(2σ2(yiθTxi)2)

最终求得:
l o g L ( θ ) = m ⋅ l o g 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 m ( y i − θ T ⋅ x i ) 2 logL(\theta) = m\cdot log\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} - \dfrac{1}{\sigma^{2}} \cdot \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2 logL(θ)=mlog2π σ1σ2121i=1m(yiθTxi)2

因此为了求其最大值,而m为顶置,故求减去值的最小值,减去最小即为最终结果最大。
故为求:
1 2 ∑ i = 1 m ( y i − θ T ⋅ x i ) 2 \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2 21i=1m(yiθTxi)2
越小越好
而令:
J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ T ⋅ x i ) 2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2 J(θ)=21i=1m(yiθTxi)2
即为最小二乘法公式,进行求解

5. 最小二乘★(矩阵求导公式)

有公式:
J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ T ⋅ x i ) 2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2 J(θ)=21i=1m(yiθTxi)2

用矩阵的方式进行转换,可知:

J ( θ ) = 1 2 ( x θ − y ) T ( x θ − y ) J(\theta)=\dfrac{1}{2}(x\theta-y)^T(x\theta-y) J(θ)=21(xθy)T(xθy)

再对上式求偏导:

J ( θ ) = ▽ θ ( 1 2 ( x θ − y ) T ( x θ − y ) ) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(x\theta-y)^T(x\theta-y)) J(θ)=θ(21(xθy)T(xθy))

J ( θ ) = ▽ θ ( 1 2 ( θ T x T ⋅ x θ − θ T x T y − y T x θ + y T y ) ) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(\theta^Tx^T\cdot x\theta- \theta^Tx^Ty-y^Tx\theta +y^Ty)) J(θ)=θ(21(θTxTxθθTxTyyTxθ+yTy))
令偏导为零:
根据矩阵求导三重要公式
公式一:
当满足A为对称阵的时候,有求导法则:
d X T A X d X = 2 A X \dfrac{dX^TAX}{dX} = 2AX dXdXTAX=2AX

公式二:
d X T A d X = A \dfrac{dX^TA}{dX} = A dXdXTA=A

公式三:
d A X d X = A T \dfrac{dAX}{dX} = A^T dXdAX=AT

根据以上公式进行计算,得:

在这里插入图片描述

令上述结果为0;
x和y均为已知,故求得:
θ = ( x T x ) − 1 x T y \theta = (x^Tx)^{-1}x^Ty θ=(xTx)1xTy

w = θ w = \theta w=θ

因此求得了w,即求得了最重要的参数w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值