2025秋招计算机视觉面试题(九)-ReLU函数在0处不可导,为什么还能用

问题

ReLU函数在0处不可导,为什么在深度学习网络中还这么常用?

问题背景

这是在阿里的机器学习岗一面的时候问的一个问题,最开始的问题是“为什么机器学习中解决回归问题的时候一般使用平方损失(即均方误差)?”。

当时我的回答是损失函数是是模型预测值与真实值之间的一种距离度量,我们可以计算出每个样本的预测值与真实值之间的距离,全部加起来就得到了所谓的损失函数。而距离的度量可以采用预测值与真实值之间差的绝对值,或者两者之差的平方,当然更高次的也行,只要你喜欢。正如问题所述,为什么我们一般使用的是两者之差的平方而不是两者只差的绝对值呢?其实这与模型的求解相关,举最简单的线性回归为例,如果采用的距离是两者之差的绝对值,那么求解的目标函数如下:
( ω ∗ ,

  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
计算机视觉方向上,使用ReLU作为CNN(卷积神经网络)的激活函数有以下好: 1. 加速收敛速度:ReLU的非线性特性可以帮助网络更快地收敛。相比于传统的激活函数如sigmoid和tanh,ReLU在正区间的斜率恒为1,避免了梯度消失的问题,从而加速了网络的训练速度。 2. 提高模型表达能力:ReLU的非线性特性可以更好地拟合复杂的函数关系,从而提高模型的表达能力。在计算机视觉任务中,图像往往具有复杂的非线性特征,ReLU可以更好地捕捉这些特征,从而提高模型的准确性。 3. 抑制不必要的响应:ReLU在输入为负数时输出为0,实现了稀疏激活性。这意味着一些神经元可以完全不被激活,从而抑制不必要的响应。在计算机视觉任务中,许多图像区域可能是背景或无关区域,ReLU可以帮助网络忽略这些区域,提高模型的鲁棒性和泛化能力。 4. 减少过拟合风险:ReLU的稀疏激活性有助于减少模型的参数数量,降低了过拟合的风险。过拟合是指模型在训练数据上表现很好,但在测试数据上表现较差的现象。通过使用ReLU作为激活函数,可以降低模型的复杂度,提高泛化能力,从而减少过拟合的问题。 综上所述,ReLU作为CNN的激活函数计算机视觉方向上具有加速收敛速度、提高模型表达能力、抑制不必要的响应和减少过拟合风险等好,因此被广泛应用于图像分类、目标检测、图像分割等计算机视觉任务中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值