深度学习基础问答

Blalaaa

已于 2024-09-22 10:43:35 修改

阅读量417

点赞数 3

文章标签：卷积神经网络深度学习

于 2024-09-19 17:19:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Blalaaa/article/details/142365019

版权

1.什么是损失函数或的代价函数

损失函数或代价函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的"风险"或"损失"的出数

——“神经网络里的标准和自己心里的标准相比较，相差多少的定量表达”

——比较两个模型差距有多少：

    最小二乘法，直接将结果与标签(心中标准)相减做比较。缺点：进行梯度下降法时会麻烦。

    极大似然估计，似然值：真实情况已经发生，假设有很多模型，在这个模型下，发生这种情况的可能性。极大似然估计：原本的模型(理想模型无法确定，但选择似然值最大的，可能性越大)

    交叉熵，熵：混乱度，越小越确定。信息量：你知道的信息对你判断最终结果的影响有多大。对信息量✖️概率代表了一个模型熵的大小。交叉熵：模型与真实情况差了多少信息量，找到价差上最小的值

2.神经网络中的信号是如何传递的呢?

正向传播。核心思路:传递的过程其实就是矩阵的乘法以及计算加权平均后经过激活函数就完成了一次传递

——感知机：线性函数+激活函数(范围(0,1)/(-1,1))。缺点：无法处理异或运算。感知机通过调整分界线进行分类，分界线为线性的。非线性分界线可通过多层感知机层层映射转换为线性分类。

——解决办法：1.将平面点升维，用平面进行分类：核方法。2.变形，曲面分界线变为直线，将点投影到直线：PCA。注意投影点之间的间距，尽量减少重合-不同主成分方向。

3.激话函数为什么从不能使用线性函数?

线性函数问题在于不管如何加深层数,总是存在与之等效的"无隐藏层的神经网络"

网络的每一层都可以看作是对输入的线性变换。这意味着，无论网络有多少层，输出都只是输入的线性组合，无法表示非线性函数。

4.怎么找到损失函数最小值

机器学习的主要任务是在学习时找最优参数，同样地，神经网络也必须在学习时找到最优参数(权重和偏置)。这里所说的最优参数是指损失函数取最小值时的函数,,但一般而言,损失函数很复杂，参数空间庞大，我们不知道他在何时能取得最小值，而是通过巧妙地使用梯度寻找函数值，这种方法称为梯度法。

神经网络的梯度是指损失函数关于权重的梯度。

——知道差距—减少差距（参数）

——反向传播：从最上层的神经网络找到对结果影响最大的参数(w,b,a-上一层的输出)递归。

——解决：1.减少计算量：每次训练挑选不同的mini batch，即随机梯度下降SGD。2.优化下降路径：优化学习步长(牛顿法：计算矩阵，动量法：参考历史数据……)

5.神注网络的学习以损失函数为指标

6.计算梯度方法:数值微分,误差反向传播

神经网络权重参数的梯度(损失函数关于权重参数的梯度)

7.神经网络学习步骤

1.(mini-batch)

2.(计算梯度) 梯度表示损失函数值减少最多的方向

3.(更新参数)将权重参数沿梯度更新

4.重复1、2、3

8.正则化

规范模型参数范围，减少过拟合(L1正则，L2正则)。原因：在一定数据样本内，参数选择或大或小不会影响最终结果，但是当新样本应用在此模型上，加入噪声等后，将会导致结果不理想，达不到在测试集上的精度。

9.深度学习计算量

——衡量模型存储需求(卷积参数量)与计算复杂度(浮点计算量)：

1.卷积参数量：卷积核尺寸✖️输入通道数✖️输出通道数

2.输出特征图尺寸：⌊原始尺寸+2×pading - Kernal尺寸)/stride⌋+1

输出特征图宽度=⌊(输入宽度+2×填充宽度−卷积核宽度)/步长+1⌋

输出特征图高度=⌊(输入高度+2×填充高度−卷积核高度)/步长+1

3.浮点计算量：卷积核参数量✖️输出特征图尺寸

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。