2022吴恩达机器学习(Deep learning)课程对应笔记17
多元回归的梯度下降法
更新时间:2023/03/20
概述
首先要统一一下符号说明。就是向量化后的多元回归的符号表示。
下面是比较一下只有一个特征的线性回归和有多个特征的多元回归之间的梯度下降的区别。
线性回归的梯度下降过程我就不解释了,前面说过,下面重点写一下多元回归的梯度下降过程:
x
⃗
(
i
)
=
[
x
1
(
i
)
,
x
2
(
i
)
,
.
.
.
,
x
n
(
i
)
]
w
⃗
=
[
w
1
,
w
2
,
.
.
.
,
w
n
]
\vec{x}^{(i)}=[x_{1}^{(i)},x_{2}^{(i)},...,x_{n}^{(i)}]\ \ \vec{w}=[w_{1},w_{2},...,w_{n}]
x(i)=[x1(i),x2(i),...,xn(i)] w=[w1,w2,...,wn]
w
1
=
w
1
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
1
(
i
)
.
.
.
w
n
=
w
n
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
n
(
i
)
b
=
b
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
s
i
m
u
l
t
a
n
e
o
u
s
l
y
u
p
d
a
t
e
w
j
(
f
o
r
j
=
1
,
.
.
.
,
n
)
a
n
d
b
w_{1} =w_{1}-\alpha\frac{1}{m}\sum_{i=1}^{m}(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_{1}^{(i)}\\...\\w_{n} =w_{n}-\alpha\frac{1}{m}\sum_{i=1}^{m}(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_{n}^{(i)}\\b =b-\alpha\frac{1}{m}\sum_{i=1}^{m}(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})\\simultaneously\ update\\w_{j}\ (for j=1,...,n)\ and\ b
w1=w1−αm1i=1∑m(fw,b(x(i))−y(i))x1(i)...wn=wn−αm1i=1∑m(fw,b(x(i))−y(i))xn(i)b=b−αm1i=1∑m(fw,b(x(i))−y(i))simultaneously updatewj (forj=1,...,n) and b
另外一种替代梯度下降的解法(正规方程):
- 只能对线性回归用
- 解决w和b不用上面的迭代
缺点:
- 不能够泛化到其它学习算法
- 当特征的数量大于10000时会非常慢