简单模型: 是对损失进行求导,不是对求导,因为是为了求得损失最小。 复杂模型: 如果不加激活函数,则每一层经过线性变换后都可以化简为原始形式,则增加的权重无意义。因此加入非线性的函数,因此式子没办法展开。 梯度:先前馈后反向