深度学习入门笔记（一）——什么是损失函数？非线性变换？softmax分类器？梯度下降？链式法则？前向传播？反向传播？神经元？正则化？激活函数？DROP-OUT层？卷积神经网络与神经网络的区别？

有菜的马哥

已于 2022-09-24 20:47:19 修改

阅读量741

点赞数 1

分类专栏： Deap Learning

于 2022-09-24 20:42:09 首次发布

本文链接：https://blog.csdn.net/Maqiuqiu520/article/details/127030124

版权

Deap Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文从深度学习的基础概念入手，包括线性函数、损失函数、softmax分类器、梯度下降、神经网络结构、激活函数、dropout层等。接着详细讲解了卷积神经网络的特点，如卷积层、池化层及其在图像识别中的作用。最后，介绍了经典的Vgg和Resnet网络结构。适合深度学习初学者阅读。

摘要由CSDN通过智能技术生成

0. 前言

在你刚入门深度学习时，是不是对损失函数、梯度下降、神经元、卷积、池化，前向传播、反向传播等等概念，感觉模棱两可，似懂非懂。本文主要是从深度学习神经网络中的一些概念开始入手，可能有总结的不对的地方，欢迎批评指正！
参考学习b站视频如下：https://www.bilibili.com/video/BV1K94y1Z7wn?p=1&vd_source=937a8096d469d1dfd67bb84e20237f49

1. 为什么提出深度学习？

首先，讲述一个机器学习算法K近邻算法，这个算法主要是计算两张图片像素点之间的距离，距离总和近的确定为某一类别。采用该算法做分类的缺点：图片背景影响较大，没有考虑图片背景的无效影响因素。而我们更应该关注的是主体，而不是背景。
综上，K近邻算法不适合用来做图像的分类。
对于某些应用而言，深度学习在大数据集上的表现比其他机器学习方法好。
深度学习算法更适合无监督和半监督学习，更适合强特征提取，也更适合于图像识别领域、文本识别领域、语音识别领域等。

2、神经网络基础

（1）线性函数（得分函数）

即从输入—>输出的映射。
Wx+b=y（W为权重矩阵，x为图像像素点，b为偏差矩阵，y为输出结果）。
有几组类别就有几组权重参数。多组权重参数构成了决策边界。
比如需要将数据集分成三类猫、狗、汽车，则就需要三组权重参数。

（2）损失函数

如何衡量分类的结果？？？
结果的得分值有着明显的差异，所以我们就需要明确知道模型当前的效果，有多好还是有多差。
在这里插入图片描述
损失函数=数据损失+正则化惩罚项。

（3）softmax分类器

在这里插入图片描述

（4）梯度下降

梯度下降就是找最好的参数，可以使损失函数得出的误差值最小，也就是找在最好的W。
即对损失函数求一阶导数，若导数值为负，就向右优化，若导数值为正，就向左优化，找到一阶导数为0的点，此时的误差为0。

（5）链式法则

梯度是一步一步传的。
在这里插入图片描述

（6）反向传播

就是反向逐层的去计算梯度值。

（7）神经网络结构是非线性的

因为神经网络有大量的神经节点，节点中的函数如果用非线性的如 sigmoid 和 ReLU 等等，那么整个神经网络就是非线性的了。

（8）神经元

参数个数对结果的影响，参数越大，可能会出现过拟合的现象。

（9）正则化

主要是由于模型过于复杂，训练数据少，参数变量多。正则化就是保留所有的变量，将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏，使每一个变量都对预测产生一点影响。
因为越复杂的模型，越是会尝试拟合所有的训练数据，包括一些异常样本，这就容易造成在较小的区间内预测值产生较大的波动，这种大的波动反映了在某些小的区间里导数值很大。而只有较大的参数值才能产生较大的导数，因此复杂的模型，其参数值会比较大。
惩罚力度对结果的影响。针对的是测试集的效果要好，而不是训练集。
在这里插入图片描述