最大似然估计和最小二乘法怎么理解_求阝0、阝1的最大似然估计,它们与其最小二乘法估计一致吗-CSDN博客

从概率论的角度：

Least Square 的解析解可以用 Gaussian 分布以及最大似然估计求得
Ridge 回归可以用 Gaussian 分布和最大后验估计解释
LASSO 回归可以用 Laplace 分布和最大后验估计解释

-------------------------------------------------------------------
下面贴一下我以前的推导给大家参考，相信会有启发。如有错误还望指正 -_-
注意：

假设你已经懂得：高斯分布、拉普拉斯分布、最大似然估计，最大后验估计（MAP）。
按照李航博士的观点，机器学习三要素为：模型、策略、算法。一种模型可以有多种求解策略，每一种求解策略可能最终又有多种计算方法。以下只讲模型策略，不讲算法。（具体怎么算，convex or non-convex, 程序怎么写，那是数值分析问题）

-------------------------------------------------------------------

首先假设线性回归模型具有如下形式：
$f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon$
其中 $\mathbf x \in \mathbb R^{1 \times d}$ ， $\mathbf w \in \mathbb R^{1 \times d}$ ，误差 $\epsilon \in \mathbb R$ 。
当前已知 $\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}$ ， $\mathbf y \in \mathbb R^{n \times 1}$ ，怎样求 $\mathbf w$ 呢？

策略1. 假设 $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$ ，也就是说 $\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2)$ ，那么用最大似然估计推导：
$\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*}$
$\text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2$
这不就是最小二乘么。

策略2. 假设 $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$ ， $\mathbf w_i \sim \mathcal{N}(0, \tau^2)$ ，那么用最大后验估计推导：
$\begin{align*}\text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot \prod_{j=1}^d \frac{1}{\tau \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf w_j}{\tau})^2)\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - \frac{1}{2\tau^2} \sum_{j=1}^d \mathbf w_j^2 - n \ln \sigma \sqrt{2\pi} - d \ln \tau \sqrt{2\pi} \end{align*}$
$\begin{align*} \text{arg\,min}_{\mathbf w} f(\mathbf w) &= \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 + \lambda \sum_{j=1}^d \mathbf w_j^2 \\ &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 + \lambda {\left\lVert\mathbf w\right\rVert}_2^2 \end{align*}$
这不就是 Ridge 回归么？

策略3. 假设 $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$ ， $\mathbf w_i \sim \text{Laplace}(0, b)$ ，同样用最大后验估计推导：
$\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2} (\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot \prod_{j=1}^d \frac{1}{2b} \exp(-\frac{|\mathbf w_j|}{b}) \\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - \frac{1}{2\tau^2} \sum_{j=1}^d |\mathbf w_j| - n \ln \sigma \sqrt{2\pi} - d \ln \tau \sqrt{2\pi} \end{align*}$
$\begin{align*} \text{arg\,min}_{\mathbf w} f(\mathbf w) &= \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 + \lambda \sum_{j=1}^d |\mathbf w_j| \\ &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 + \lambda {\left\lVert\mathbf w\right\rVert}_1 \end{align*}$
这不就是 LASSO 么？

不知大家看懂没，简直是完美统一啊。

作业：）