深度学习面试题汇总（一）

最新推荐文章于 2024-05-01 16:29:54 发布

Unstoppable~~~

最新推荐文章于 2024-05-01 16:29:54 发布

阅读量447

点赞数 1

文章标签：深度学习神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gary101818/article/details/129571559

版权

深度学习面试题汇总（一）

文章目录

深度学习面试题汇总（一）

1.Dropout

1.1Dropout在训练的过程中会随机去掉神经元，那么在编码过程中是怎么处理的呢？

在这里插入图片描述

1.2dropout的训练过程需要做rescale，这个过程是什么样子的呢？

在这里插入图片描述

2.激活函数

2.1Relu

在这里插入图片描述

2.1.1Relu零点不可导问题

在这里插入图片描述

2.1.2Relu优缺点

优点包括：

解决了梯度消失、爆炸的问题
计算方便，计算速度快，求导方便
加速网络训练

缺点包括：

由于负数部分恒为0，会导致一些神经元无法激活
输出不是以0为中心

2.2Sigmoid

在这里插入图片描述

特点：

Sigmoid函数优良的特性能够把X ∈ R的输出压缩到X ∈ (0, 1)区间。可以利用Sigmoid函数将输出转译为概率值的输出。
在LSTM中，当Sigmoid输出1的时候代表当前门控全部开放（允许全部记忆通过），当Sigmoid输出0的时候代表门控关闭（不允许任何记忆通过）。

缺点：

经过Sigmoid激活函数输出的均值为0.5，即输出为非0均值。反向传播时候更新方向要不往正向更新，要不往负向更新，会导致捆绑效果，使得收敛速度减慢。
梯度消失和梯度爆炸

3.如何处理神经网络中的过拟合问题？

4.梯度消失和梯度爆炸的问题是如何产生的？如何解决？

由于反向传播过程中，前面网络权重的偏导数的计算是逐渐从后往前累乘的，如果使用、σ、tanh 激活函数的话，由于导数小于一，因此累乘会逐渐变小，导致梯度消失，前面的网络层权重更新变慢；如果权重本身比较大，累乘会导致前面网络的参数偏导数变大，产生数值上溢。

因为 sigmoid 导数最大为1/4，故只有当abs(w)>4时才可能出现梯度爆炸，因此最普遍发生的是梯度消失问题。

解决方法通常包括

使用ReLU等激活函数，梯度只会为0或者1，每层的网络都可以得到相同的更新速度
采用LSTM
进行梯度裁剪(clip), 如果梯度值大于某个阈值，我们就进行梯度裁剪，限制在一个范围内
使用正则化，这样会限制参数 w的大小，从而防止梯度爆炸
设计网络层数更少的网络进行模型训练
batch normalization

精彩博客：https://kexue.fm/archives/7888

5.交叉熵损失与KL散度的区别？

在这里插入图片描述

6.什么是数据规范化（Normalization），我们为什么需要它？

规范化将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

第L层每个神经元的激活值进行Normalization操作，比如BatchNorm/ LayerNorm/ InstanceNorm/ GroupNorm等方法都属于这一类；
对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作，比如Weight Norm就属于这一类。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习面试题汇总（一）

规范化将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。第L层每个神经元的激活值进行Normalization操作，比如BatchNorm/ LayerNorm/ InstanceNorm/ GroupNorm等方法都属于这一类；对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作，比如Weight Norm就属于这一类。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。