激活函数特性
• ReLU:函数为f(x)=max(0,x)。当输入小于0时,输出为0,神经元“关闭”;输入大于0时,输出等于输入,神经元“激活”。其优点是计算简单、能缓解梯度消失问题,使训练更高效。但对于接近0的小输入值,梯度为0,可能导致一些神经元无法更新权重,在处理微小差异时可能不够敏感。
• Sigmoid:函数为f(x)=\frac{1}{1 + e^{-x}},输出值在(0,1)之间,能将输入映射到一个概率值,可用于表示两个目标的概率差异。其在整个定义域上都有非零梯度,能更细致地处理输入的微小变化。
数据特性与模型需求
如果两个目标仅相差一个像素的小点,属于细微差异。Sigmoid能对输入的微小变化在输出上产生相对明显的变化,有利于模型捕捉这种细微差异。而ReLU由于在小于0部分梯度为0的特性,可能会忽略掉一些与这一个像素小点相关的微弱特征信息,使得模型难以学习到两个目标之间的细微区别,导致精度只能达到0.4左右。
解释图
以下是一个简单的示意图来展示两者的区别:
激活函数 | 图像示意 | 特点说明 |
---|---|---|
ReLU | 以原点为转折点,x轴负半轴为0,正半轴为直线y = x | 在0点处有硬边界,小于0时无输出 |
Sigmoid | 呈S型曲线,在x轴两端逐渐趋近于0和1 | 平滑过渡,对所有输入都有响应 |
Sigmoid的平滑特性和对所有输入的响应能力使其在处理本题中细微差异的目标时更具优势,能让模型达到0.9左右的精度。