目录
自己快速复习所用,所以文章内容会比较简洁
1.二分类(Binary Classification)
x x x:表示一个 n x n_x nx维数据,为输入数据,维度为 ( n x , 1 ) (n_x,1) (nx,1);
y y y:表示输出结果,取值为 ( 0 , 1 ) (0,1) (0,1);
( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)):表示第 i i i组数据,可能是训练数据,也可能是测试数据,此处默认为训练数据;
X = [ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ] X=[x^{(1)},x^{(2)},...,x^{(m)}] X=[x(1),x(2),...,x(m)]:表示所有的训练数据集的输入值,放在一个 n x × m n_x×m nx×m的矩阵中,其中 m m m表示样本数目;
Y = [ y ( 1 ) , y ( 2 ) , . . . , y ( m ) ] Y=[y^{(1)},y^{(2)},...,y^{(m)}] Y=[y(1),y(2),...,y(m)]:对应表示所有训练数据集的输出值,维度为 1 × m 1×m 1×m。
2.逻辑回归(Logistic Regression)
2.1.Hypothesis Function(假设函数)
y
^
=
σ
(
θ
T
x
)
\hat{y}=\sigma \left( {{\theta }^{T}}x \right)
y^=σ(θTx)
σ
(
x
)
=
1
1
+
e
−
x
\sigma \left( x \right)=\frac{1}{1+{{e}^{-x}}}
σ(x)=1+e−x1
2.2.逻辑回归的代价函数(Logistic Regression Cost Function)
损失函数又叫做误差函数,用来衡量算法的运行情况,Loss function:
L
(
y
^
,
y
)
L\left( \hat{y},y \right)
L(y^,y).
我们通过这个
L
L
L称为的损失函数,来衡量预测输出值和实际值有多接近。
我们在逻辑回归中用到的损失函数是:
L
(
y
^
,
y
)
=
−
y
log
(
y
^
)
−
(
1
−
y
)
log
(
1
−
y
^
)
L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})
L(y^,y)=−ylog(y^)−(1−y)log(1−y^)
代价函数
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
(
i
)
,
y
(
i
)
)
=
1
m
∑
i
=
1
m
(
−
y
(
i
)
log
y
^
(
i
)
−
(
1
−
y
(
i
)
)
log
(
1
−
y
^
(
i
)
)
)
J\left( w,b \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}
J(w,b)=m1i=1∑mL(y^(i),y(i))=m1i=1∑m(−y(i)logy^(i)−(1−y(i))log(1−y^(i)))
损失函数只适用于像这样的单个训练样本,而代价函数是参数的总代价,所以在训练逻辑回归模型时候,我们需要找到合适的
w
w
w和
b
b
b,来让代价函数
J
J
J 的总代价降到最低。