线性回归的概率解释

原文链接 

http://blog.csdn.net/shaohuacheng/article/details/51985944

Andrew Ng的公开课机器学习

线性回归中我们建立了一个线性模型 h(x(i))=θTx(i) ,并计算误差函数 J(θ)=mi=1(h(x(i))y(i))2=mi=1(θTx(i)y(i))2

为了选择合适的 θ 使得 J(θ) 最小,我们可以采取两种方法: 
1.梯度下降法 
2.最小二乘法

具体的在上一节中已有讲述。 
本文从概率上解释,为何在计算 J(θ) 时,我们选择预测值与实际值差值的平方作为误差衡量? 
实质上,这是我们认为误差满足高斯分布时的极大似然估计。

假设样本的实际关系为 y(i)=θTx(i)+ϵ(i) ,其中 ϵ(i) 代表一些无法捕获的噪声。假设噪声满足高斯分布 N(0,σ2) ,即 P(ϵ(i))=12πσexp((ϵ(i))22σ2) 。 
即给定 x(i) 和参数 θ 时,函数值服从高斯分布: 
P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2) 。 
换言之,给定样本值和参数,函数值 y(i) 服从 N(θTx(i),σ2) 。 
则参数的极大似然函数为: 

L(θ)=i=1mP(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

对数似然函数: 
logL(θ)=i=1mlogP(y(i)|x(i);θ)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσi=1m(y(i)θTx(i))22σ2

为了使似然函数最大,则需最小化 

i=1m(y(i)θTx(i))22σ2

即最小化

J(θ)=i=1m(y(i)θTx(i))22

上述推导说明了,线性回归的参数,实质上是假设误差满足高斯分布且独立同分布的情况下的极大似然估计。


补充下似然函数的概念

统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:
L(θ|x)=P(X=x|θ).
似然函数在 推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次,落地都是正面向上”这种事件,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。(详细见百度百科)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值