吴恩达深度学习笔记——第一二课

最新推荐文章于 2021-04-08 08:07:21 发布

Mia_compiling

最新推荐文章于 2021-04-08 08:07:21 发布

阅读量245

点赞数

分类专栏：吴恩达深度学习笔记

本文链接：https://blog.csdn.net/qq_41796745/article/details/107937971

版权

吴恩达深度学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

做图像识别的时候，大多使用CNN来解决：

在用python构建神经网络的时候，输入设置为一个nx * m的矩阵，其中nx是每一个样本的长度（64643），m是所有样本的总数m个。这样设置的时候便于神经网络的构建。

Loss Function：
在这里插入图片描述

关于激活函数sigmoid 和 softmax

两者用于分类时，都可以将分类器输出的原始值转化为概率

sigmoid 适合于各种情况的概率不需要相加为1的时候，即，两种或以上情况是可能同时存在的。而softmax的输出值相加为1，适合于只能有一种结果，不能有两种或以上情况共存。

Sigmoid函数如下所示（注意e）：
在这里插入图片描述
Softmax函数如下：

除分母外，为综合所有因素，将原始输出值中的e ^ thing相加，Softmax函数与Sigmoid函数差别不大。换言之，用Softmax函数计算单个原始输出值（例如Z1）时，不能只计算Z1，分母中的Z1，Z2，Z3和Z4也应加以计算，如下所示：
在这里插入图片描述
然后如果不是在输出层，其他层的激活函数几乎不会使用sigmoid，而是需要使用性能更好的tanh，因为tanh的取值范围在（-1，1）之间，平均值为0，这样更好。而即使是输出层，也只有在二分类的时候才会用sigmoid。

在这里插入图片描述
RELU也是非常常用的激活函数，因为 $a = R E L U (z) = m a x (0, z)$ 不会在z的值变大的时候使梯度近似为零（导致学习非常缓慢），现实中也几乎不会出现所有z全都为零的情况。

或者是 $leaky_-relu = max(0.01z, z)$ ，但是不如relu常用。

关于进度

今天被老师问了看书看到哪了。我只能说第零章，说实话我第零章还没看完。

这本书，全英文原版不说，里面的定理都是没有证明过程的，而且有一些概念并没有提到。因为是英文原著的缘故，跟我大一的时候学的线性代数差距其实有点大，而且这本书作为专业修习的基础书，讲得深入很多。只有很少一部分之前学过的概念和定理能够准确地对上号，其余的百分之九十都是新内容。

看了好几天才看到第16页，这也让我有些沮丧。

短期来说似乎也没有什么办法，老师限期四十天，我也慢慢啃吧，尽量啃完T_T

然后老师内涵我要多努努力。我努力，马上就努力，哭了T_T

我其实发现，我特别容易给自己设限制，就必须有个人push我一下我才着急往前走，不然我真的特别容易固步自封，而且我也不是很会给别人带来惊喜的那种人，我实际做到的总是under 别人的 expectation。（得，这才几天，我就开始也这样说话了）

关于Python中使用numpy的几点注意事项

这个问题其实也困扰我很久了，就很烦，矩阵维度这一块，总是有一些shape是(5,)，之前见过很多次也一直不太理解。

是这样，当用指令生成一个“矩阵”，如下：

a = np.random.randn(5)

a =  [-0.46124724 -0.79949711 -0.175863   -0.15324351 -0.27096938]
shape:  (5,)

得到的a是这样的，shape是（5，）这样一个表示。这其实是一个 rank 为 1 的 array。

然后如果生成的指令变为

a = np.random.randn(5, 1)

a =  [[ 0.1717126 ]
 [-0.48400011]
 [-0.81556645]
 [ 0.97819986]
 [ 2.41299644]]
shape:  (5, 1)

这次得到的就是一个 row vector 列向量了。同理，如果是（1，5），那就是行向量。

注意到前面只有一个[]，后面有两个[]，这也是区别。

还有，如果用第一种方法生成，当a与a的转置相乘的时候，得到的其实是一个数，而不是像我们想象的一样是一个矩阵。这样一来，一些操作可能就会受到影响。可以通过==a.reshape(5, 1)==的方法来将他转换成向量的形式，而不是一个数组。

老师还说可以哟个assert(a.shape == (5, 1))，然后我搜了一下，这是个用来处理错误的东西。相当于，只有a的shape是（5，1）的时候可以执行。如果不是的话，就会报错显示AssertionError。

而且，直接定义x = [1, 2, 3] 和定义x = np,array([1, 2, 3]) 也是不一样的，后者是 numpy array，前者就是列表list。

还有，在看矩阵的shape的时候，应该是先看最外侧，再往里侧看。就比如，

np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

这就是一个3*3*2的矩阵。

深层/浅层

对于深层神经网络或者是浅层神经网络，深和浅指的是神经网络的层数。

深层神经网络的前向传递（forward propagation）

和单层神经网络类似，深层神经网络只不过是一层层的神经网络连接在一起，只不过每一层的神经元个数或者参数 $w 、 b$ 都不尽相同。

在这里插入图片描述
这是一个五层的神经网络（不计入输入层），其中每一层都有对应的参数 $w [i], b [i]$ ，并且每层的参数的维度如下：
$w [i] . s h a p e = (n [i], n [i - 1])$
$b [i] . s h a p e = (n [i], 1)$

搭建神经网络模块

前向传递：
在这里插入图片描述
反向传递

在这里插入图片描述
其中g’(z)是每层的激活函数关于z的导数。

上两图中左侧是单个样本的情况，右侧是将m个样本向量化（放在同一矩阵中）的情况。

在这里插入图片描述

Mia_compiling

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
吴恩达深度学习笔记——第一二课

做图像识别的时候，大多使用CNN来解决：在用python构建神经网络的时候，输入设置为一个nx * m的矩阵，其中nx是每一个样本的长度（64643），m是所有样本的总数m个。这样设置的时候便于神经网络的构建。Loss Function：关于激活函数sigmoid 和 softmax两者用于分类时，都可以将分类器输出的原始值转化为概率sigmoid 适合于各种情况的概率不需要相加为1的时候，即，两种或以上情况是可能同时存在的。而softmax的输出值相加为1，适合于只能有一种结果，不能有两种或以
复制链接

扫一扫

专栏目录