李宏毅机器学习Task5

最新推荐文章于 2022-11-23 21:50:27 发布

孤客...

最新推荐文章于 2022-11-23 21:50:27 发布

阅读量217

点赞数

分类专栏：机器学习文章标签：机器学习打卡

本文链接：https://blog.csdn.net/qq_38364952/article/details/90677364

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.逻辑回归（logistic regression）

对于给定的一个x ，我们想要得到 $\hat{y}=P(y=1|x)$ ，其中， $x\in R^{n_{x}}$ , $0\leq \hat{y}\leq 1$

1.1损失函数

对于 $\hat{y}^{(i)}=sigmoid(W^{T}+b)$ ，我们想要得到 $\hat{y}^{(i)}\approx y^{(i)}$ ，因此定义损失函数
$L(\hat{y},y)=-y\log(\hat{y})-(1-y)\log(1-\hat{y})$

原理：
$if\ y =1,\ L(\hat{y},y)=-y\log(\hat{y}),\ 此时L\downarrow,\ \ \log(\hat{y})\uparrow,所以y\uparrow$

$if\ y =0,\ L(\hat{y},y)=-(1-y)\log(1-\hat{y}),\ 此时L\downarrow,\ \ \log(\hat{y})\uparrow,所以y\downarrow$

代价函数:
$J(W,b)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)} \log (\hat{y^{(i)}}) + (1-y^{(i)}) \log(1-\hat{y^{(i)}})]$

1.2梯度下降

正向传播原理如下：（以两个输入为例子）
$(x_1,x_2,w_1,w_2,b)\longrightarrow Z=w_1x_1+w_2x_2+b \longrightarrow a=\sigma(Z) \longrightarrow L(a,y)$

通过上式的的流程，我们通过所学过的链式法则，分别算出
$da=\frac{dL}{da}=-\frac{y}{a}+\frac{1-y}{1-a}$

$dz=\frac{dL}{dz}=a-y$

$dw_1=\frac{dL}{dw_1}=\frac{dL}{dz}*\frac{dz}{dw_1}=x_1dz$

$dw_2=\frac{dL}{dw_2}=\frac{dL}{dz}*\frac{dz}{dw_2}=x_2dz$

$d b = d z$

以上式子就是进行一次反向传播之后得到的结果，此时需要更新参数：
$w:=w-\alpha dw$

$b:=w-\alpha db$

1.3代码实现

 for i in np.arange(num_iter):
        # grads,cost = propagate(w, b, X, Y)
        m = X.shape[1]
        A = sigmoid(np.dot(w.T, X) + b)
        dz = A - Y
        dw = np.dot(X, dz.T) / m
        db = np.sum(dz) / m
        cost = -1 / m * np.sum(Y * np.log(A) + (1 - Y) * np.log(1 - A))
        assert (dw.shape == w.shape)
        assert (db.dtype == float)
        w = w - learnint_rate * dw
        b = b - learnint_rate * db

2.softmax

2.1原理

上面所讲述的逻辑回归主要是用于二分类问题，输出层只有一个输出。而对于多分类问题，列如识别手写数字，需要10个输出，因此输出层需要使用softmax激活函数。

$Z^{[L]}=W^{[L]}a^{[L-1]}+b^{[L]}$

$a_{i}^{[L]}=\frac{e_{i}^{[L]}}{\sum_{i=1}^{C}e^{z_{i}^{[L]}}}$

输出层满足 $a_i^{[L]}$ 满足：（C表示输出个数）
$\sum_{i=1}^Ca_i^{[L]}=1$

所有的a_i^{[L]}维度为(C,1)

2.2损失函数

利用交叉熵误差的方法，由于标签数据是one-hot的形式，因此cost可以是下面的式子：
$J=\frac{1}{m} \sum_{i=1}^{m}(-\log(\hat{y}))$

2.3梯度下降

与1.2的逻辑回归梯度下降差不多，因为只有输出层不同，一个是sigmoid或者relu等激活函数，一个是softmax激活函数，通过对链式法则的理解，我们只要知道输出层的dZ就可以跟着1.2的算法推导出其他的式子了。
$dz=\frac{dL}{da}=a-y$
（高等数学微积分知识，草稿纸慢慢算吧，反正答案是这个）