最小二乘的概率解释

在线性回归中,我们以最小二乘来作为损失函数,然后使得这个损失函数的值最小。那么为什么会选择最小二乘

而不是其它的指标呢? 今天就用概率方面的知识来解释。首先,设

 

     

 

其中是样本的误差纠正量。由于我们目的是训练出合适的参数,使得的绝对值尽量小,那么可以确定

大部分的值集中在0附近,而少数值离0较远,很明显,这可以看成随机变量服从高斯分布。即

 

     

 

那么概率密度函数为

 

     

 

那么也就是说有

 

     

 

亦即

 

      

 

那么进一步得到联合概率密度函数为

 

      

 

现在我们来求最大似然估计,即找到合适的参数,使得上述概率取值最大。两边分别取对数得到

 

      

 

要是上述目标函数值最大,那么只需要

 

      

 

最小即可。这就解释了线性回归为什么要选用最小二乘作为衡量指标了。多么美的自然科学啊!!!

 

现在想想Logistic回归也是基于一个假设,即概率只能为0或者1,它是用一个Sigmoid函数来把数据范围映

到区间[0,1]上的,最后根据联合概率密度函数求最大似然估计。

 

 

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值