相关重点
自适应神经元与感知机的主要区别是多了一个激活函数
梯度下降背后的逻辑:
走下坡路直到抵达局部或者全部代价最小为止
把 权重变化 定义为 负的梯度 乘 学习率
批量梯度下降:
权重更新是基于训练数据集中所有样本进行计算的,而不是在每个样本之后逐步计算的
感知机是每次训练完模型都要更新权重
学习率的选择
太小 则要经过多次迭代才能收敛到全局最低代价
太大 则会错过全局最小值
用特征缩放改善梯度下降
随机梯度下降(SGD)
对于海量数据,运行批量梯度下降的代价很大,因为向全局最小值走一步,都需要重新评估整个训练数据集
所以用随机梯度下降代替批量梯度下降