文章目录
这篇文章是我观看吴恩达老师机器学习系列2-1至2-7课程所总结的笔记,文有诸多不妥,请不吝赐教。
linear regression 回归问题
predict real-valued(continuous valued)output预测连续的数值输出
classification problem 分类问题
predict discrete-valued output 预测离散值输出(例如0和1)
linear regression with one variable
hypothesis 假设函数
通常用h表示
h
θ
h_{\theta}
hθ(x)=
θ
0
\theta_{0}
θ0+
θ
1
\theta_{1}
θ1x
θ
i
\theta_{i}
θi ——parameter模型参数
cost function 代价函数
也称平方误差函数。
J
(
θ
0
,
θ
1
)
J_{(\theta_{0},\theta_{1})}
J(θ0,θ1)=
1
2
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}
2m1∑i=1m(hθ(x(i))−y(i))2
要寻找
θ
0
\theta_{0}
θ0和
θ
1
\theta_{1}
θ1的值,使预测更加准确,即使
h
(
x
)
h(x)
h(x)和y的差尽可能得小。代价函数要尽可能得小。
gradient descent 梯度下降
最小化任意代价函数
给定
θ
0
\theta_{0}
θ0
θ
1
\theta_{1}
θ1初始值
不断更新
θ
0
\theta_{0}
θ0
θ
1
\theta_{1}
θ1,使
J
(
θ
0
,
θ
1
)
J_{(\theta_{0},\theta_{1})}
J(θ0,θ1)不断变小直至最小
θ
i
:
=
θ
i
−
α
∂
θ
i
J
(
θ
0
,
θ
1
)
\theta_{i}:=\theta_{i}-\alpha\frac{\partial}{\theta_{i}}J_{(\theta_{0},\theta{1})}
θi:=θi−αθi∂J(θ0,θ1) (i=0,i=1)
α
\alpha
α:学习速率
“Batch” gradient descent线性回归的梯度下降
每一步梯度下降都遍历了整个训练集的样本
是一个凸函数(弓状函数),使用梯度下降算法会得到全局最优解
求偏导:
∂
θ
0
J
(
θ
0
,
θ
1
)
=
1
m
∑
i
=
1
m
h
θ
(
x
(
i
)
)
−
y
(
i
)
\frac{\partial}{\theta_{0}}J_{(\theta_{0},\theta{1})}=\frac{1}{m}\sum_{i=1}^{m}h_{\theta}(x^{(i)})-y^{(i)}
θ0∂J(θ0,θ1)=m1∑i=1mhθ(x(i))−y(i)
∂
θ
1
J
(
θ
0
,
θ
1
)
=
1
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
i
\frac{\partial}{\theta_{1}}J_{(\theta_{0},\theta{1})}=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{i}
θ1∂J(θ0,θ1)=m1∑i=1m(hθ(x(i))−y(i))xi
更新
θ
0
θ
1
\theta_{0} \theta_{1}
θ0θ1:
θ
0
:
=
θ
0
−
1
m
∑
i
=
1
m
h
θ
(
x
(
i
)
)
−
y
(
i
)
\theta_{0}:=\theta_{0}-\frac{1}{m}\sum_{i=1}^{m}h_{\theta}(x^{(i)})-y^{(i)}
θ0:=θ0−m1∑i=1mhθ(x(i))−y(i)
θ
1
:
=
θ
1
−
1
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
i
\theta_{1}:=\theta_{1}-\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{i}
θ1:=θ1−m1∑i=1m(hθ(x(i))−y(i))xi
术语和符号
data set数据集——training set训练集
m——训练样本的数量
x——输入变量
y——输出变量
(x,y)——某个训练样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i))——第i个训练样本