一、线性回归
给定一组数据
(
x
i
,
y
i
)
(x_{i},y_{i})
(xi,yi),
y
i
y_{i}
yi是连续的,用线性模型
y
^
i
=
h
θ
(
x
i
)
=
θ
T
x
i
\hat{y}_{i}=h_{\theta}(x_{i})=\theta^{T}x_{i}
y^i=hθ(xi)=θTxi,估计值
y
^
i
\hat{y}_{i}
y^i与实际值
y
i
y_{i}
yi间存在误差
ε
i
\varepsilon_{i}
εi,即
y
i
=
θ
T
x
i
+
ε
i
(
1
)
y_{i}=\theta^{T}x_{i}+\varepsilon_{i}(1)
yi=θTxi+εi(1).
误差
ε
i
\varepsilon_{i}
εi属于独立同分布的,根据大数定理,
ε
i
∼
μ
(
0
,
σ
2
)
\varepsilon_{i} \sim\mu(0,\sigma^{2})
εi∼μ(0,σ2),则有:
p
(
ε
i
)
=
1
2
π
e
−
ε
i
2
σ
2
(
2
)
p(\varepsilon_{i} ) = \frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_{i}^{2}}{\sigma^{2}}}(2)
p(εi)=2π1e−σ2εi2(2)
ε
i
=
y
i
−
θ
T
x
i
\varepsilon_{i}=y_{i}-\theta^{T}x_{i}
εi=yi−θTxi带入(2)式有,
p
(
y
i
∣
x
i
,
θ
)
=
1
2
π
e
−
(
y
i
−
θ
T
x
i
)
2
σ
2
(
3
)
p(y_{i}|x_{i},\theta ) =\frac{1}{\sqrt{2\pi}}e^{-\frac{(y_{i}-\theta^{T}x_{i})^{2}}{\sigma^{2}}} (3)
p(yi∣xi,θ)=2π1e−σ2(yi−θTxi)2(3)
转成了
x
i
,
θ
x_{i},\theta
xi,θ已知的情况下,
y
i
y_{i}
yi发生的概率。
最大似然函数为
L
(
θ
)
=
Π
i
=
1
m
p
(
y
i
∣
x
i
,
θ
)
(
4
)
L(\theta)=\Pi_{i=1}^{m}p(y_{i}|x_{i},\theta )(4)
L(θ)=Πi=1mp(yi∣xi,θ)(4)
将(3)式带入(4)中,然后取对数,最后得到
J
(
θ
)
=
1
2
Σ
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
2
=
1
2
(
θ
T
X
−
Y
)
T
(
θ
T
X
−
Y
)
J(\theta)=\frac{1}{2}\Sigma_{i=1}^{m}(h_{\theta}(x_{i})-y_{i})^{2}=\frac{1}{2}(\theta^{T}X-Y)^{T}(\theta^{T}X-Y)
J(θ)=21Σi=1m(hθ(xi)−yi)2=21(θTX−Y)T(θTX−Y)
通过最小二乘法,求出参数
θ
\theta
θ
方法二:最小均方误差(整体误差的平方和最小,几何方法)
c
o
s
t
(
θ
)
=
m
i
n
1
2
Σ
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
2
(
5
)
=
m
i
n
1
2
(
θ
T
X
−
Y
)
T
(
θ
T
X
−
Y
)
cost(\theta)=min{\frac{1}{2}\Sigma_{i=1}^{m}(h_{\theta}(x_{i})-y_{i})^{2}} (5)=min{\frac{1}{2}(\theta^{T}X-Y)^{T}(\theta^{T}X-Y)}
cost(θ)=min21Σi=1m(hθ(xi)−yi)2(5)=min21(θTX−Y)T(θTX−Y)
为了求(5)式的最小值,由于
c
o
s
t
(
θ
)
>
=
0
cost(\theta)>=0
cost(θ)>=0,对
θ
\theta
θ求导,导数为0的点记为参数
θ
\theta
θ的值,即可得出线性模型
y
^
i
=
h
θ
(
x
i
)
=
θ
T
x
i
\hat{y}_{i}=h_{\theta}(x_{i})=\theta^{T}x_{i}
y^i=hθ(xi)=θTxi
在
X
T
X
X^{T}X
XTX中加入了
λ
\lambda
λ后,带入
J
(
θ
)
J(\theta)
J(θ)中,
逻辑斯谛回归
假设数据服从二项分布,得到数据分布律:
p
(
y
∣
x
;
θ
)
=
(
h
θ
(
x
i
)
y
i
(
1
−
h
θ
(
x
i
)
)
1
−
y
i
p(y|x;\theta) = (h_{\theta}(x_{i})^{y_{i}}(1-h_{\theta}(x_{i}))^{1-y_{i}}
p(y∣x;θ)=(hθ(xi)yi(1−hθ(xi))1−yi
通过求逻辑斯谛回归的最大似然,求解模型的参数
θ
\theta
θ.解析法求解参数比较难,用梯度下降法求解