01.神经网络和深度学习-神经网络的编程基础

最新推荐文章于 2024-01-01 19:09:34 发布

Jason66661010

最新推荐文章于 2024-01-01 19:09:34 发布

阅读量251

点赞数

分类专栏： # 吴恩达深度学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42325947/article/details/108679364

版权

吴恩达深度学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2.1 二分类

1.学习目标

学习不使用for循环来遍历m个样本的方法
神经网络的计算过程为何分为正向传播与反向传播

2.训练集的理解

图片在计算机中表示：为了保存一张图片，需要保存三个矩阵，
它们分别对应图片中的红、绿、蓝三种颜色通道，如果你的图片大小为 64x64 像素，那么你就有三个规模为64x64 的矩阵（64 *64 *3）

注意将这些像素值放到一个特征向量的方法：竖着放（x就是一个n维的向量）

于是：

（x，y）：代表一个单独的向量样本，x表示之前的n维向量，y表示对应的预测值（0或者1）

训练集由m个向量样本组成的
$x^1,y^1)表示向量样本一，(x^2,y^2)表示向量样本二$

最后用更紧凑的符号X来表示整个训练集（一列为一个训练样本，多个列组成训练集）

行数：nx的维数

列数：训练集中的样本数量

二对应的表示Y的矩阵则是（1*m的矩阵）

2.2logistic回归

有了X的输入，还要有W（也是nx维的向量），b（是一个实数）如何来表示出y^呢？

如果是直接的线性表示Y=W*X+b的话，结构可能会>1，也有可能会是负数，所以引入sigmoid函数

公式：

sigmoid函数的缺点：

1.饱和的神经元会"杀死"梯度,指离中心点较远的x处的导数接近于0,停止反向传播的学习过程：当输入非常大或者非常小的时候（saturation），这些神经元的梯度是接近于0的（看图）

2.sigmoid的输出不是以0为中心,而是0.5,这样在求权重w的梯度时,梯度总是正或负的（如果数据进入神经元的时候是正的，那么计算出的梯度也会始终都是正的。）

3.指数计算耗时。

2.3logistic回归损失函数（loss function）

𝐿(𝑦 ^,𝑦) = −𝑦log(𝑦 ^) − (1 − 𝑦)log(1 − 𝑦 ^)

讨论：

当y=1的时候我需要让上式尽可能地小，上式变为−log(𝑦 ^)，则log(𝑦 ^{)尽可能地大，`及y^尽量大`，而y}最大为1

同理当y=0的时候，我们希望y^尽可能的小，即为0

损失函数

注意平方差函数与交叉熵损失函数的区别：

平方差函数主要使用在回归问题中，而交叉熵损失函数会使用在分类问题中：在激活函数是sigmoid之类的函数的时候，用平方损失的话会导致误差比较小的时候梯度很小，这样就没法继续训练了，这时使用交叉熵损失就可以避免这种衰退。如果是线性输出或别的激活函数神经元的话完全可以用平方损失。

2.4 梯度下降法

损失函数（loss function）：衡量单一样本训练的结果

成本函数（cost function）：在全部的数据集上衡量训练的结果

成本函数=m个样本的损失函数的和 / m

成本函数必须是一个凸函数，这样才能使用梯度下降法在多次迭代的过程中寻找出唯一的一个全局最优解

在迭代中的公式：𝑤 = 𝑤 − 𝑎*𝑑𝐽(𝑤)/𝑑𝑤

例子：loss = $x^2$ +sin(x)

*梯度下降法的过程就是$x_{new}=x_{origin}-dx learning_rate $(dx是loss的导数)

其中的𝑎为学习率，用来控制每次迭代中梯度下降法的步长。

这样的话：

当w开始很大的话，根据𝑤 = 𝑤 − 𝑎*𝑑𝐽(𝑤)/𝑑𝑤，w会逐渐变小；

当w开始很小的话，根据𝑤 = 𝑤 − 𝑎*𝑑𝐽(𝑤)/𝑑𝑤，w会逐渐变大；

最终都会使得新的w达到最小。

2.5 m个样本的梯度下降

之前的成本函数是m个样本的损失函数的和 / m，而要是考虑w的全局梯度值的话，则需要对成本函数进行求导：也就是将之前的每个样本的梯度值求和后 / m

过程：

对各个w以及b值进行初始化
使用for循环遍历各个样本，在遍历中计算

在这里插入图片描述
缺点：

1.需要编写两个for循环，第一个for循环用来进行样本的遍历；第二个for循环用来遍历所有特征的for循环（w1 w2·······）

解决方法：使用向量化的方法解决

2.6 向量化

使用向量化的方法就是：
$z = n p . d o t (w, x) + b$
其中w，x都是（1*n_x）维的数据

例子：

可以看到使用向量化的话会快很多

原因：使用numpy等方法可以进行CPU、GPU等合理的数据并行处理，从而加快代码的运行。

在梯度下降法中高效计算激活函数

首先可以使用dw=np.zeros((n_x,1)来代替内层的循环

而外层的循环使用之前说过的X矩阵来解决：（得到一个大写的Z矩阵）

即：
$Z=np.dot(W^t,X)+b$
由于b实际上是一个实数，但是在它与前面计算完成后的矩阵相加的时候，python就会将这个实数自动变为一个1*m的矩阵（这称为python中的广播）

在梯度下降法中的后向传播中使用向量化

通过向量化的方法来同时计算m个训练样本的梯度

开始没有使用向量化的代码：

使用向量化的代码：
在这里插入图片描述

多次迭代梯度下降法

在进行多次的梯度下降的迭代时，还是需要一个for循环来控制迭代的次数，而这个迭代的for循环是没有办法去掉的

2.7 numpy中的向量说明

在编程的时候不要使用类似a=np.random.randn(5)这样的秩为一的数组（ a.shape=(5,) ），因为当进行矩阵a*矩阵a的转置的时候结果不是一个矩阵而是一个数，所以建议使用a=np.random.randn(5,1) a.shape=(5,1)

a=np.random.randn(1,5) a.shape=(1,5)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
01.神经网络和深度学习-神经网络的编程基础

草泥马
复制链接

扫一扫

专栏目录

Jason66661010 CSDN认证博客专家 CSDN认证企业博客

码龄6年

287: 原创

24万+: 周排名

187万+: 总排名

16万+: 访问

: 等级

3575: 积分

52: 粉丝

82: 获赞

27: 评论

354: 收藏

私信

关注

热门文章

分类专栏

最新评论

conda命令报错解决方法
qq_37460382: 啊！太感谢了！差点以为要重新装了
Open Set Domain Adaptation by Backpropagation(OSBP)论文数字数据集复现
m0_65318840: 博主您好，我看结果数字‘4’的准确率只有百分之一多点，这是正常的吗
pytorch实现学习率衰减
izeh: 请问一下有没有基于batch的学习率衰减策略？
Pytorch中的torch.gather函数
Liekkas Kono: 看了这么多博客，还是博主这篇讲到了点上，感谢博文中下面的部分，有个笔误，“通过index_1”应该为“通过index_2” “2）当维度dim=1，索引index_2为[0,1,2,3]T时，此时可将a看成4×1的矩阵，通过index_1对a每行进行列索引：第一行第一列元素为0，第二行第二列元素为5，第三行第三列元素为10，第四行第四列元素为15，即c=[0,5,10,15]T。”
记笔记最好用的超高颜值软件之一！Typora 你值得拥有！
lihuan6: typora可以自己导出为PDF文件, 然后手机上看, 除了没有一些主题的动效, 其他都是很还原的. 字体统一改成宋体, 很好看的. 另外, 请问楼主用的什么主题啊, 感觉挺好看的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。