在线性回归中,我们以最小二乘来作为损失函数,然后使得这个损失函数的值最小。那么为什么会选择最小二乘
而不是其它的指标呢? 今天就用概率方面的知识来解释。首先,设
其中是样本的误差纠正量。由于我们目的是训练出合适的参数,使得的绝对值尽量小,那么可以确定
大部分的值集中在0附近,而少数值离0较远,很明显,这可以看成随机变量服从高斯分布。即
那么概率密度函数为
那么也就是说有
亦即
那么进一步得到联合概率密度函数为
现在我们来求最大似然估计,即找到合适的参数,使得上述概率取值最大。两边分别取对数得到
要是上述目标函数值最大,那么只需要
最小即可。这就解释了线性回归为什么要选用最小二乘作为衡量指标了。多么美的自然科学啊!!!
现在想想Logistic回归也是基于一个假设,即概率只能为0或者1,它是用一个Sigmoid函数来把数据范围映射
到区间[0,1]上的,最后根据联合概率密度函数求最大似然估计。