这一部分内容和吴恩达老师的CS229前面的部分基本一致,不过那是很久之前看的了,我尽可能写的像吴恩达老师那样思路缜密。
1.假设
之前我们了解过最大似然估计就是最大化似然函数$$L(\theta) = \sum log(p(x_{i}|\theta))$$
来确定参数\(\theta\),假设我们独立测量的结果X(x1,x2,x3...)是有误差的,且每个测量结果的误差分布相同,即独立同分布。我们再假定测量结果满足以真实结果\(f(x|\theta)\)为均值,方差为\(\sigma\),标准差为\(\delta\)的高斯分布,注意这里的\(\theta\)指最优的参数解,但它是未知的。
2.推导
在给出一定假设后,我们根据最大似然估计的方法来进行推到。首先我们假定测量结果的分布函数后,可以得到以\(\theta\)为参数时,预测结果等于测量结果的概率:
$$p(x=xi|\theta) = \frac{1}{\sqrt{2\pi}\delta} e^{-\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}}$$
进而对数似然函数变为:
$$L(\theta) = \frac{1}{\sqrt{2\pi}\delta}\sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
我们最大化似然函数,等同于最大化求和部分:
$$\widehat(L)(\theta) = \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
我们要求的\(\theta\)有:
$$\theta = argmax \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
等同于:
$$\theta = argmin \sum \frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
进一步化简有:
$$\theta = argmin \sum (xi-f(x|\theta))^{2}$$
3.分析
通过上面推导,我们发现,在假定测量误差满足独立同分布时,最大似然估计和最小二乘法有一定的相通性,但这并不表明二者是相同的!最大似然估计是要满足预测结果和测量结果一致的概率最大,而最小二乘法估计要满足预测结果和测量结果尽可能接近(二范式距离的平方最小),二者的测度和出发点不一样,但又有联系。