神经网络中, 运算特征是不断进行循环计算, 所以在每代循环过程中, 每个神经元的值也是在不断变化的。 这就导致了Tanh函数在特征相差明显时的效果会很好, 在循环过程中其会不断扩大特征效果并显示出来。 但有时当计算的特征间的相差虽比较复杂却没有明显区别, 或是特证间的相差不是特别大时, 就需要更细微的分类判断, 这时Sigmoid函数的效果就会更好一些。 后来出现的ReLU激活函数的优势是, 经过其处理后的数据有更好的稀疏性。 即, 将数据转化为只有最大数值, 其他都为0。 这种变换可以近似程度地最大保留数据特征, 用大多数元素为0的稀疏矩阵来实现。实际上, 神经网络在不断反复计算中, 就变成了ReLU函数在不断尝试如何用一个大多数为0的矩阵来表达数据特征。 以稀疏性数据来表达原有数据特征的方法, 使得神经网络在迭代运算中能够取得又快又好的效果, 所以目前大多用max(0, x) 来代替Sigmod函数。