算法面试
文章平均质量分 91
flying_1314
2025持续分享前沿文章~敬请期待~
当前主要侧重,图神经网络,大模型相关论文讲解,后续大家如果有感兴趣的方向,欢迎评论区讨论
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
面试常问系列(一)-激活函数-relu/leaky_relu/prelu/dice
摘要: 本文分析了ReLU、LeakyReLU和PReLU等激活函数如何解决传统Sigmoid/Tanh的梯度消失问题。ReLU通过正区间梯度恒为1避免衰减,但负区间梯度为零可能导致神经元死亡;LeakyReLU引入固定小负梯度(如0.01)缓解该问题;PReLU进一步通过可学习参数α自适应调整负区间梯度,适应不同特征分布(如推荐系统中用户年龄和价格的差异)。此外,Dice激活函数(如DIN模型所用)动态调整校正点为数据均值,并平滑过渡,更适用于数据分布多变的场景(如用户兴趣建模)。实验显示,Dice比PR原创 2026-01-17 18:15:55 · 717 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d
通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。原创 2025-05-06 19:05:57 · 788 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化之自注意力机制
除以dk的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。原创 2025-03-23 23:36:15 · 1601 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化
Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。原创 2025-03-23 17:10:20 · 1460 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化-之-softmax
Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。原创 2025-05-06 18:15:48 · 1204 阅读 · 0 评论
分享