-
如何设置网络的初始值?
一般总是使用服从(截断)高斯分布和均匀分布的随机值,初始值的大小会对优化结果和网络的泛化能力产生较大的影响,一些启发式初始化策略通常是根据输入和输出的单元数来决定初始权重的大小 -
梯度爆炸的解决办法?
梯度截断:梯度达到某一个阈值时对其进行限制
良好的参数初始化策略也能缓解梯度爆炸策略
使用线性整流激活函数,如relu -
稀疏表示,独立表示,低维表示?
无监督学习任务的目的是尽可能找到数据的“最佳”表示。一般来说是指该表示在比本身表示的信息更简单的情况下,尽可能的保存关于x更多的信息
低维表示尝试将一个x尽可能压缩在一个较小的表示中
稀疏表示将数据集嵌入到输入项大多数为0的表示中
独立表示试图分开数据分布中变化的来源,使得表示的维度是统一独立的 -
为什么交叉熵损失比均方误差损失能提高以sigmoid和softmax作为激活函数层的性能?
使用均方误差(MSE)作为损失函数时会导致大部分情况下的梯度偏小,其结果是权重的更新很慢,且容易造成“梯度消失”现象,而交叉熵损失克服了这个缺点,当误差较大的时候权重更新快,当误差小的时候权重更新慢。 -
范数的应用:正则化——权重衰减/参数范数惩罚
权重衰减的目的:限制模型的学习能力,通过限制参数θ的规模(主要是权重,偏置不参与惩罚)使模型偏好于权值较
深度学习-面试知识点总结(日更五题 早更新晚温习)
最新推荐文章于 2024-05-20 16:10:27 发布
本文总结了深度学习面试中常见的知识点,包括网络初始化、梯度爆炸的解决办法、无监督学习的目标、交叉熵损失的优势、正则化的应用,以及防止过拟合的各种策略,如L1和L2正则化、数据增强、Dropout和批标准化等。
摘要由CSDN通过智能技术生成