问题提出
当面临一个回归问题时,为什么目标函数要用以下的形式定义:
J
=
1
2
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J= \frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2
J=21i=1∑m(hθ(x(i))−y(i))2
分析流程
1.假设目标变量
y
y
y与输入量
x
x
x存在以下关系:
y
(
i
)
=
θ
T
x
(
i
)
+
ϵ
(
i
)
y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}
y(i)=θTx(i)+ϵ(i)
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)为误差项,在预测房价中,
ϵ
\epsilon
ϵ代表和房价十分相关的一些特征,但是线性回归中,我们并没有将这些特征纳入考虑。
2.假设
ϵ
\epsilon
ϵ服从独立同分布(IID)
独立同分布的定义:随机过程中,任何时刻取值均为随机变量,如果这些随机变量服从同一分布,并且相互独立,那么这些随机变量是独立同分布。
基于离散随机过程,解释一下这个定义:
-
随机变量
随机试验的样本空间为S,称定义在样本空间上的实值单值函数 X = X ( ω ) X=X(\omega) X=X(ω)为随机变量。
随机变量是对某一随机试验结果引入一个数来表示。比如抛硬币是一个随机试验,它的样本空间为S={正面,反面}。定义:当 ω = \omega= ω=“正面”时, X = X ( 正 面 ) = 1 X=X(正面)=1 X=X(正面)=1,当 ω = \omega= ω=“反面”时, X = X ( 反 面 ) = 0 X=X(反面)=0 X=X(反面)=0,正面、反面是自变量,引入1和0作为因变量来与自变量对应。 -
随机过程
一个随机过程 X = { X ( t ) , t ∈ T } X=\left\{ X(t),t\in T \right\} X={X(t),t∈T}是一族随机变量,简单理解就是在每个时刻 t t t都有一个随机变量 X X X。比如在每隔1s就抛硬币,则在1s,2s,3s…都有一个随机变量 X X X与其对应。 -
概率分布
对于离散随机变量 X X X的所有可能取值为 x i x_i xi,有 P = { X = x i } = p i P=\left\{X=x_i \right\}=p_i P={X=xi}=pi,称为X的概率分布,也称概率函数。
仍用抛硬币的例子, x 1 = 1 x_1=1 x1=1和 x 2 = 0 x_2=0 x2=0的概率均为0.5,即 p 1 = 0.5 p_1=0.5 p1=0.5和 p 2 = 0.5 p_2=0.5 p2=0.5。 -
独立
不同时刻的随机变量不相互影响。举个不太恰当的反例,小时候你做错了事,你爸t1时刻扇了你一耳光,然后你的脸肿了一个包,假设这个包的高度为h1,然后很短间隔后的t2时刻,你爸又在同一个部位扇了你一耳光,此时你原来的那个包变成了h2。显然这个t2时刻包的高度受到h1的影响。这两个随机变量就不是相互独立的。
3.假设
ϵ
\epsilon
ϵ服从的概率分布为高斯分布
ϵ
∼
N
(
0
,
σ
2
)
\epsilon\sim N(0,\sigma^2)
ϵ∼N(0,σ2)
所以
p
(
ϵ
(
i
)
)
=
1
2
2
π
σ
e
x
p
(
−
ϵ
(
i
)
2
2
σ
2
)
p(\epsilon^{(i)})=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac{\epsilon^{(i)^2}}{2\sigma^2})
p(ϵ(i))=22πσ1exp(−2σ2ϵ(i)2),将
y
(
i
)
=
θ
T
x
(
i
)
+
ϵ
(
i
)
y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}
y(i)=θTx(i)+ϵ(i)代入其中,得到:
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
1
2
2
π
σ
e
x
p
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
p(y^{(i)}|x^{(i)};\theta)=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2})
p(y(i)∣x(i);θ)=22πσ1exp(−2σ2(y(i)−θTx(i))2)
上式表示在给出
x
(
i
)
x^{(i)}
x(i)及某一个
θ
\theta
θ后的
y
(
i
)
y^{(i)}
y(i)的分布
4.最大似然估计
思想:在已经得到实验结果的情况下,应该寻找使这个结果出现的可能性最大的那个值
θ
\theta
θ作为
θ
\theta
θ的估计值。
我们已经得到了一些样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i)),定义其似然函数为:
L
(
θ
)
=
Π
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
L(\theta)=\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)
L(θ)=Πi=1mp(y(i)∣x(i);θ)
根据最大似然估计的思想,我们需要选择一个
θ
\theta
θ使上式取得最大值。具体过程为:
l
n
L
(
θ
)
=
l
n
Π
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
∑
i
=
1
m
l
n
(
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
)
=
∑
i
=
1
m
l
n
(
1
2
2
π
σ
e
x
p
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
)
=
∑
i
=
1
m
l
n
(
1
2
2
π
σ
)
−
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
=
n
l
n
(
1
2
2
π
σ
)
−
1
σ
2
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
lnL(\theta)=ln\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\=\sum_{i=1}^mln(p(y^{(i)}|x^{(i)};\theta))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}})-\sum_{i=1}^m\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}\\=nln(\frac{1}{2\sqrt{2\pi\sigma}})-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2
lnL(θ)=lnΠi=1mp(y(i)∣x(i);θ)=i=1∑mln(p(y(i)∣x(i);θ))=i=1∑mln(22πσ1exp(−2σ2(y(i)−θTx(i))2))=i=1∑mln(22πσ1)−i=1∑m2σ2(y(i)−θTx(i))2=nln(22πσ1)−σ2121i=1∑m(y(i)−θTx(i))2
要使上式最大,只需
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2
21∑i=1m(y(i)−θTx(i))2最小即可。只要这个式子最小,则表明我们选择的
θ
\theta
θ能够最大可能地使这些样本出现。因此,我们选择这样的一个式子作为回归问题目标函数。