线性回归数学推导

最新推荐文章于 2020-09-06 12:31:37 发布

qq_41534566

最新推荐文章于 2020-09-06 12:31:37 发布

阅读量391

点赞数

分类专栏：深度学习面试程序员机器学习

本文链接：https://blog.csdn.net/qq_41534566/article/details/84978026

版权

程序员同时被 3 个专栏收录

38 篇文章 0 订阅

订阅专栏

面试

24 篇文章 0 订阅

订阅专栏

机器学习

18 篇文章 0 订阅

订阅专栏

一、数学基础

1、似然函数

概率（probability）：描述已知参数时的随机变量的输出结果；

似然函数（likelihood）：用来描述已知随机变量输出结果时，未知参数的可能取值。

$L(\theta | x) = f(x | \theta)$

似然函数和密度函数是完全不同的两个数学对象，前者是关于 $\theta$ 的函数，后者是关于的函数。

2、高斯分布

数学期望（mean）：试验中，每次可能结果的概率乘以其结果的总和。

（伯努利）大数定律：当试验次数足够多时，事件发生的频率无穷接近于该事件发生的概率。

伯努利试验：设试验E只可能有两种结果：“A”和“非A”

n重伯努利试验：将E独立的重复地进行n次,则称这一穿重复的独立试验为n重伯努利试验

二项分布（伯努利分布）：将一伯努利试验重复了n次,在这n次试验中成功次数k,k为随机变量,称为二次随机变量,其分布称为二项分布

$P(X = k) = C_n^kp^k(1-p)^{n-k} , k = 1,2,...,n$

正态分布:又称“高斯分布”

$f(x) = \frac 1 {\sqrt{2 \pi }\sigma} e ^ {- \frac {(x^2-\mu^2)} {2\sigma^2}}$

3、对数公式

$\log AB = \log A + \log B$

4、矩阵计算

矩阵转置：行变列，列变行。

矩阵乘法：A的列数必须与B的行数相等

$A = \left[ \begin{matrix} a & b & c \end{matrix} \right] \\\\ B = \left[ \begin{matrix} e & f & g \end{matrix} \right] \\\\ A^T B = ae + bf + cg$

矩阵求导

$\frac {d( { x ^ T A X } )} {d(x)} = 2Ax \\\\ \frac {d( { x ^ T A } )} {d(x)} = A \\\\ \frac {d( { A x} )} {d(x)} = {A ^ T}$

二、推导

1、线性回归公式

y = wx + b

当存在多个特征参数的时候，不同的特征参数对目标函数值有不同的权重参数。

$h_\theta(x) = \theta _ 1 x _ 1 + \theta _2 x _ 2 + ... + \theta _n x _ n \\\\ = \sum_{i=1}^n\theta _ i x _ i$

使用矩阵来表示

$\theta^T x = \left[ \begin{matrix} \theta _ 1 \\\\ \theta _ 2 \\\\ .\\\\ .\\\\ .\\\\ \theta _ n \\\\ \end{matrix} \right] \left[ \begin{matrix} x _ 1 & x _ 2 & ... & x _ n \end{matrix} \right] = \sum_{i=1}^n\theta _ i x _ i = h_\theta(x)$

2、计算误差

误差项：真实值和预测值之间存在的一个误差，我们通常希望误差越小越好。

$h_\theta(x) = \theta ^ T x + \xi \\\\ y ^ {(i)} = \theta ^ T x ^ {(i)} + \xi ^ {(i)}$

误差项符合高斯分布，所以

$P(\xi _ i) = \frac 1 { \sqrt {2 \pi } \sigma} e ^ { - \frac { \xi ^ 2 } { 2 \sigma ^ 2}} \\\\ P(y _ i | x _ i ; \theta) = \frac 1 { \sqrt { 2 \pi } \sigma } e ^ { - \frac { { (y _ i - \theta ^ T x _ i)} ^ 2 } {2 \sigma ^ 2 } }$

要计算某些参数和特征组合让误差最小，这里引入似然函数

$L(\theta) = \prod_{ i=1 }^{ m } P(y _ i | x _ i ; \theta) = \prod_{i=1}^{m} \frac 1 { \sqrt{2 \pi } \sigma } e ^ {- \frac { { (y _ i - \theta ^ T x _ i) } ^ 2 } { 2\sigma^2 } } \\\\ \log L(\theta) = \log \prod_{i=1}^{m} \frac 1 { \sqrt{ 2 \pi }\sigma } e ^ { - \frac { { ( y _ i - \theta ^ T x _ i ) } ^ 2 } { 2\sigma^2 } } \\\\ = \sum_{i=1}^{m} \log \frac 1 { \sqrt{ 2 \pi }\sigma } e ^ { - \frac { { (y _ i - \theta ^ T x _ i) } ^ 2 } { 2\sigma^2 } } \\\\ = \sum_{i=1}^{m} ( \log \frac 1 { \sqrt{ 2 \pi }\sigma } + \log e ^ { - \frac { { ( y _ i - \theta ^ T x _ i ) } ^ 2 } { 2 \sigma ^ 2 } }) \\\\ = m \log \frac 1 { \sqrt{ 2 \pi }\sigma } - \frac 1 { 2 { \sigma } ^ 2 } \sum_{i=1}^{m} { ( y _ i - \theta ^ T x _ i ) } ^ 2$

因不考虑定值，得出 $J(\theta)$ 越小越好

$J(\theta) = \frac 1 {2} \sum_{i=1}^{m} {(y _ i - \theta ^ T x _ i)} ^ 2$

3、矩阵求偏导

根据矩阵知识，将上式转换

$J(\theta) = \frac 1 {2} \sum_{i=1}^{m} {(h _ \theta(x _ i) - y _ i)} ^ 2 \\\\ = \frac 1 {2} (x \theta - y) ^ T (x \theta - y)$

对矩阵求偏导

$\partial_\theta J(\theta) = \partial _ \theta ( { \frac 1 {2} (x \theta - y) ^ T (x \theta - y) } ) \\\\ = \partial_\theta { ( \frac 1 {2} ( \theta ^ T x ^ T - y ^ T ) (x \theta - y) ) } \\\\ = \partial _ \theta { ( \frac 1 {2} ( { \theta ^ T x ^ T x \theta } - { \theta ^ T x ^ T y } - {y ^ T x \theta } + {y ^ T y } ) } \\\\ = \frac 1 {2} ( { 2 x ^ T x \theta } - { x ^ T y } - { (y ^ T x) ^ T } ) \\\\ = {x ^ T x \theta} - { x ^ T y}$