Andrew Ng-深度学习-第一门课-week2

最新推荐文章于 2024-10-17 09:54:58 发布

linxid

最新推荐文章于 2024-10-17 09:54:58 发布

阅读量406

点赞数

分类专栏：吴恩达深度学习笔记吴恩达-深度学习文章标签： Andrew Ng 深度学习教程神经网络

本文链接：https://blog.csdn.net/linxid/article/details/89875875

版权

吴恩达深度学习笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

吴恩达-深度学习

3 篇文章 3 订阅

订阅专栏

1.2.2 第一位代表第一门课，第二位代表第几周，第三位代表第几次视频。编号和视频顺序对应，有些章节视频内容较少进行了省略。对内容进行简单的总结，而不是全面的记录视频的每一个细节，详细可见[1]。

1.神经网络和深度学习

1.2 Basics of Neural Network programming

1.2.1 Binary classification

符号定义 ：

$x$ ：表示一个 $n_x$ 维数据，维度为 $n_x,1)$ ， $n_x$ 为特征数；
$y $ ：表示输出结果，取值为 $(0, 1) $ ；
$x^{(i)},y^{(i)})$ ：表示第 $i$ 组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；
$X=[x^{(1)},x^{(2)},...,x^{(m)}]$ ：表示所有的训练数据集的输入值，放在一个 $n_x×m$ 的矩阵中，其中 $m$ 表示样本数目;
$Y=[y^{(1)},y^{(2)},...,y^{(m)}]$ ：对应表示所有训练数据集的输出值，维度为 $1 \times m$

1.2.2 Logistic regression

算法用于二分类
回归公式： $\hat{y}=\sigma({{w}^{T}}x+b)$
激活函数simoid： $\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}$
参数： $w$ 权重； $b$ 偏置
二分类 $y$ 必须是0或1；

1.2.3 Logistic regression cost function

为什么需要代价函数：
为了训练得到 $w, b$

代价函数:

RMSE： $L\left( \hat{y},y \right) = \frac{(y-y')^2}{2}$
logloss： $L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})$

为什么选择logloss：

当 $y = 1$ ==> $L=-\log (\hat{y})$ ，损失函数 $L$ 尽可能得小 ==> $\hat{y}$ 就要尽可能大 ==> $\hat{y}$ 无限接近于1
当 $y = 0$ ==> $L=-\log (1-\hat{y})$ ，损失函数 $L$ 尽可能得小 ==> $\hat{y}$ 就要尽可能小 ==> $\hat{y}$ 会无限接近于0

m个样本的损失函数： *
$J\left( w,b \right) =\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}= \frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}$

1.2.4 Gradient Descent

1.梯度下降法的形象化说明:

代价函数 $J (w, b)$ 是一个凸函数(convex function)
非凸函数会存在很多极小值

2. 朝最陡的下坡方向走一步，不断地迭代
$\alpha\frac{\partial J(w,b)}{\partial w}$

$\alpha\frac{\partial J(w,b)}{\partial b}$

1.2.8 Derivatives with a Computation Graph

在这里插入图片描述
上述计算图的的导数关系是：
$\frac{dJ}{du}=\frac{dJ}{dv}\frac{dv}{du}$ ， $\frac{dJ}{db}=\frac{dJ}{du}\frac{du}{db}$ ， $\frac{dJ}{da}=\frac{dJ}{du}\frac{du}{da}$
其实利用计算图求导即链式法则。

1.2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

假设样本只有两个特征 ${{x}_{1}}$ 和 ${{x}_{2}}$ ，参数为 ${{w}_{1}}$ 、 ${{w}_{2}}$ 和 $b$ 。
$z$ 的计算公式为：
$\hat{y}=a=\sigma (z)$ $\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}$

$z={{w}^{T}}x+b = {{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+b$

损失函数：
${{{\hat{y}}}^{(i)}},{{y}^{(i)}})=-{{y}^{(i)}}\log {{\hat{y}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{\hat{y}}^{(i)}})$

代价函数：
$J\left( w,b \right)=\frac{1}{m}\sum\nolimits_{i}^{m}{L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})}$

单个样本的代价函数：
$L(a,y)=-(y\log (a)+(1-y)\log (1-a))$

$a$ :逻辑回归的输出， $y$ :样本的标签值

梯度下降法， $w$ 和 $b$ 的更新公式：
$\frac{\partial J(w,b)}{\partial w}，b:=b-a\frac{\partial J(w,b)}{\partial b}$

链式法则：
$\frac{\partial L}{\partial {{w}_{1}}}=(\frac{dL}{da})\cdot (\frac{da}{dz}) (\frac{\partial z}{\partial {{w}_{1}}})=[( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})]\cdot [a(1 - a)][x_1]=(a-y)x1$

$\frac{\partial L}{\partial {{w}_{2}}}=(\frac{dL}{da})\cdot (\frac{da}{dz}) (\frac{\partial z}{\partial {{w}_{2}}})=[( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})]\cdot [a(1 - a)][x_2]=(a-y)x2$

$\frac{\partial L}{\partial {b}}=(\frac{dL}{da})\cdot (\frac{da}{dz}) (\frac{\partial z}{\partial {b}})=[( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})]\cdot [a(1 - a)]=(a-y)$

参数更新：
${{w}_{1}}={{w}_{1}}-\alpha d{{w}_{1}}，{{w}_{2}}={{w}_{2}} - \alpha d{{w}_{2}}，b=b-\alpha db$

1.2.10 m 个样本的梯度下降(Gradient Descent on m Examples)

m 个样本的梯度下降也就是对m个样本求损失函数，然后对损失函数求梯度，对参数的更新公式是不变的。此处直接给出伪代码，这里通过循环来实现求和以及参数的更新。

J=0;dw1=0;dw2=0;db=0;
for i = 1 to m
    z(i) = wx(i)+b;
    a(i) = sigmoid(z(i));
    J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));
    dz(i) = a(i)-y(i);
    dw1 += x1(i)dz(i);
    dw2 += x2(i)dz(i);
    db += dz(i);
J /= m;
dw1 /= m;
dw2 /= m;
db /= m;
w = w-alpha*dw
b = b-alpha*db

代码缺陷：两个for循环

循环遍历m个训练样本
循环遍历所有特征，对特征进行更新

1.2.11 向量化

针对上一节的两个问题，通过向量化代替循环来解决问题。
以下为两个数组相乘的向量化版本

import time #导入时间库
a = np.random.rand(1000000)
b = np.random.rand(1000000) #通过round随机得到两个一百万维度的数组
tic = time.time() #现在测量一下当前时间
#向量化的版本
c = np.dot(a,b)
toc = time.time()
print(“Vectorized version:” + str(1000*(toc-tic)) +”ms”) #打印一下向量化的版本的时间

#继续增加非向量化的版本
c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()
print(c)
print(“For loop:” + str(1000*(toc-tic)) + “ms”)#打印for循环的版本的时间

计算向量 $u = A v$ ：

矩阵乘法的定义就是： $u_{i} =\sum_{j}^{}{A_{\text{ij}}v_{j}}$
非向量化实现： $u = n p . z e r o s (n, 1)$ ，并且通过两层循环 $f o r (i) : f o r (j) :$ ，得到 $u [i] = u [i] + A [i] [j] * v [j]$
向量化方式： $u = n p . d o t (A, v)$

Numpy内置的向量函数：

u=np.log()：是计算对数函数()
u=np.exp()：是计算指数函数()
np.abs()是：计算数据的绝对值
np.maximum() ：计算元素中的最大值
v**2：计算每个元素的平方
1/v：获取元素的倒数

参数更新向量化方式：
$d w$ 定义为一个向量，np.zeros(n(x),1)，向量化操作 $dw=dw+x^{(i)}dz^{(i)}$

1.2.13 向量化逻辑回归(Vectorizing Logistic Regression)

对m个样本进行预测：
$a^{(1)}=\sigma (z^{(1)})，z^{(1)}=w^{T}x^{(1)}+b$

$a^{(2)}=\sigma (z^{(2)})，z^{(2)}=w^{T}x^{(2)}+b$

$. . .$

$a^{(m)}=\sigma (z^{(m)})，z^{(m)}=w^{T}x^{(m)}+b$

向量化操作： $X：R^{n_x \times m}，w：R^{1 \times m}$
$z^{(1)},z^{(2)},...z^{(m)}]=w^{T}X+[b,b,...b]=[w^{T}x^{(1)}+b,w^{T}x^{(2)}+b,...w^{T}x^{(m)}+b]$

numpy实现：

Z = np.dot(W.T,X) + b    # Vectorization, then broadcasting, Z shape is (1, m)
A = 1 / 1 + np.exp(-Z)   # Vectorization, A shape is (1, m)

向量化梯度下降

$Z = w^{T}X + b = np.dot( w.T,X)+b$

$\sigma( Z )$

$d Z = A - Y$

$\frac{1}{m}*X*dz^{T}\ }$

$\frac{1}{m}*np.sum( dZ)$

$w : = w - a * d w$

$b : = b - a * d b$

1.2.15 Python-Numpy简单教程

一图总结Numpy的广播机制：
在这里插入图片描述
Numpy：axis，指明将要进行的运算是沿着哪个轴执行，0轴是垂直的（列），而1轴是水平的（行）

注意：

不建议使用类似a=np.random.randn(5)这种数据结构，a.shape=(5, )操作起来不可控；
建议使用a=np.random.randn(5,1)这种操作，乘积的维度是可控的；
assert(a.shape==(5,1))来辅助判断数据的维度

1.2.18 logistic 损失函数的解释（Explanation of logistic regression cost function）

为什么采用logloss，以及logloss是如何得到的。
型预测结果： $\hat{y}=\sigma(w^{T}x+b)$ ， $\sigma(z)=\sigma(w^{T}x+b)=\frac{1}{1+e^{-z}}$
算法模型的输出 $\hat{y}$ 是给定训练样本 $x$ 条件下 $y$ 等于1的概率， $\hat{y}=p(y=1|x)$

分两种情况讨论：
if $y = 1$ ，⇒ $p(y|x)=\hat{y}$
if $y = 0$ ，⇒ $p(y|x)=1-\hat{y}$

上述的两个条件概率公式合并成一个： $p(y|x)={\hat{y}}^{y}{(1-\hat{y})}^{(1-y)}$

log 函数是严格单调递增函数，最大化 $l o g (p (y ∣ x))$ 等价于最大化 $p (y ∣ x)$ ，就是计算 $log({\hat{y}}^{(y)}{(1-\hat{y})}^{(1-y)})$ ，化简后 $ylog\hat{y}+(1-y)log(1-\hat{y})$ 。后面便可以得到逻辑回归的损失函数。