线性回归

wangdf99

于 2019-01-27 20:36:17 发布

阅读量151

点赞数

【学习任务】

线性回归损失函数的极大似然推导：西瓜书公式3.4除了用最小二乘法以外，怎么用极大似然推得？
一元线性回归的参数求解公式推导：西瓜书公式3.7和3.8怎么推来的？
多元线性回归的参数求解公式推导：西瓜书公式3.10和3.11怎么推来的？
线性回归损失函数的最优化算法：什么是批量梯度下降、随机梯度下降、小批量梯度下降？

问题1：对于连续目标函数的学习问题，当误差服从正态分布，而且在没有任何先验知识的条件下，最大似然估计与最小均方误差是等价的，因此可以用最大似然估计来求解公式3.4，如下：

给定数据集D={（x1，y1），（x2，y2），...，（xn，yn）}；记样本为 $\left ( x^{i}, y^{i}\right )$ ，对样本的预测为 $\hat{y}^{\left ( i \right )}\mid _{\theta }$ ，该记法表示该预测依赖于参数 $\theta$ 的选取。我们有 $y=\hat{y}\mid _{\theta }+\epsilon$ ，其中， $\epsilon$ 是一个误差函数，假设服从正态分布即 $\epsilon \sim N\left ( 0,\sigma^{2} \right )$ ，因此有 $\bg_white y-\hat{y}\mid_{\theta }\sim N\left ( 0,\theta^{2} \right )$ ，即 $y\simN\left(\hat{y}\mid_\theta, \sigma ^{2} \right )$ ，要求 $\theta$ 的极大似然估计，也就是说我们现在得到的这个真实存在的y在 $\theta$ 不同的取值下出现概率最大，我们来看这个概率，令 $L\left ( \theta \right )=P(y|x;\theta)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{\left ( y^{i} -\hat{y}^{i}\mid _{\theta}\right )^{2}}{2\sigma})$ ，为了简化计算，令 $l(\theta)=logL(\theta)=mlog\frac{1}{\sqrt{2\pi }}+\sum_{i=0}^{m}(-\frac{\left(y^{i}-\hat{y}^{i}\mid_{\theta} \right )^{2}}{2\sigma})$ ，要让 $L(\theta)$ 最大，即求 $l(\theta)$ 最大，即让 $\sum_{i=0}^{m}(y^{i}-\hat{y}^{i}\mid _{\theta})^{2}$ 取得最小值，当样本模型选择线性模型y=wx+b时，即求 $\bg_white \sum_{i=0}^{m}(y^{i}-wx^{i}-b)^{2}$ 的最小值；