吴恩达机器学习(五)最小二乘法的概率性解释

吴恩达机器学习(五)最小二乘法的概率性解释

问题提出

当面临一个回归问题时,为什么目标函数要用以下的形式定义:
J = 1 2 ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J= \frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 J=21i=1m(hθ(x(i))y(i))2

分析流程

1.假设目标变量 y y y与输入量 x x x存在以下关系:
y ( i ) = θ T x ( i ) + ϵ ( i ) y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)} y(i)=θTx(i)+ϵ(i)
ϵ ( i ) \epsilon^{(i)} ϵ(i)为误差项,在预测房价中, ϵ \epsilon ϵ代表和房价十分相关的一些特征,但是线性回归中,我们并没有将这些特征纳入考虑。

2.假设 ϵ \epsilon ϵ服从独立同分布(IID)
独立同分布的定义:随机过程中,任何时刻取值均为随机变量,如果这些随机变量服从同一分布,并且相互独立,那么这些随机变量是独立同分布。
基于离散随机过程,解释一下这个定义:

  • 随机变量
    随机试验的样本空间为S,称定义在样本空间上的实值单值函数 X = X ( ω ) X=X(\omega) X=X(ω)为随机变量。
    随机变量是对某一随机试验结果引入一个数来表示。比如抛硬币是一个随机试验,它的样本空间为S={正面,反面}。定义:当 ω = \omega= ω=“正面”时, X = X ( 正 面 ) = 1 X=X(正面)=1 X=X()=1,当 ω = \omega= ω=“反面”时, X = X ( 反 面 ) = 0 X=X(反面)=0 X=X()=0,正面、反面是自变量,引入1和0作为因变量来与自变量对应。

  • 随机过程
    一个随机过程 X = { X ( t ) , t ∈ T } X=\left\{ X(t),t\in T \right\} X={X(t),tT}是一族随机变量,简单理解就是在每个时刻 t t t都有一个随机变量 X X X。比如在每隔1s就抛硬币,则在1s,2s,3s…都有一个随机变量 X X X与其对应。

  • 概率分布
    对于离散随机变量 X X X的所有可能取值为 x i x_i xi,有 P = { X = x i } = p i P=\left\{X=x_i \right\}=p_i P={X=xi}=pi,称为X的概率分布,也称概率函数。
    仍用抛硬币的例子, x 1 = 1 x_1=1 x1=1 x 2 = 0 x_2=0 x2=0的概率均为0.5,即 p 1 = 0.5 p_1=0.5 p1=0.5 p 2 = 0.5 p_2=0.5 p2=0.5

  • 独立
    不同时刻的随机变量不相互影响。举个不太恰当的反例,小时候你做错了事,你爸t1时刻扇了你一耳光,然后你的脸肿了一个包,假设这个包的高度为h1,然后很短间隔后的t2时刻,你爸又在同一个部位扇了你一耳光,此时你原来的那个包变成了h2。显然这个t2时刻包的高度受到h1的影响。这两个随机变量就不是相互独立的。

3.假设 ϵ \epsilon ϵ服从的概率分布为高斯分布 ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^2) ϵN(0,σ2)
所以 p ( ϵ ( i ) ) = 1 2 2 π σ e x p ( − ϵ ( i ) 2 2 σ 2 ) p(\epsilon^{(i)})=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac{\epsilon^{(i)^2}}{2\sigma^2}) p(ϵ(i))=22πσ 1exp(2σ2ϵ(i)2),将 y ( i ) = θ T x ( i ) + ϵ ( i ) y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)} y(i)=θTx(i)+ϵ(i)代入其中,得到:
p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};\theta)=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}) p(y(i)x(i);θ)=22πσ 1exp(2σ2(y(i)θTx(i))2)
上式表示在给出 x ( i ) x^{(i)} x(i)及某一个 θ \theta θ后的 y ( i ) y^{(i)} y(i)的分布
4.最大似然估计
思想:在已经得到实验结果的情况下,应该寻找使这个结果出现的可能性最大的那个值 θ \theta θ作为 θ \theta θ的估计值。
我们已经得到了一些样本 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)),定义其似然函数为:
L ( θ ) = Π i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta)=\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta) L(θ)=Πi=1mp(y(i)x(i);θ)
根据最大似然估计的思想,我们需要选择一个 θ \theta θ使上式取得最大值。具体过程为:
l n L ( θ ) = l n Π i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∑ i = 1 m l n ( p ( y ( i ) ∣ x ( i ) ; θ ) ) = ∑ i = 1 m l n ( 1 2 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) ) = ∑ i = 1 m l n ( 1 2 2 π σ ) − ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 = n l n ( 1 2 2 π σ ) − 1 σ 2 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 lnL(\theta)=ln\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\=\sum_{i=1}^mln(p(y^{(i)}|x^{(i)};\theta))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}})-\sum_{i=1}^m\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}\\=nln(\frac{1}{2\sqrt{2\pi\sigma}})-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 lnL(θ)=lnΠi=1mp(y(i)x(i);θ)=i=1mln(p(y(i)x(i);θ))=i=1mln(22πσ 1exp(2σ2(y(i)θTx(i))2))=i=1mln(22πσ 1)i=1m2σ2(y(i)θTx(i))2=nln(22πσ 1)σ2121i=1m(y(i)θTx(i))2
要使上式最大,只需 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 21i=1m(y(i)θTx(i))2最小即可。只要这个式子最小,则表明我们选择的 θ \theta θ能够最大可能地使这些样本出现。因此,我们选择这样的一个式子作为回归问题目标函数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值