Logistic学习笔记
逻辑回归从头到尾推倒一遍:
(w和b以及x、y等均为向量;并且这是个二分类器)
首先对于输入:X 对应 标签 Y
假设X经过模型计算后输出Y’
定义sigmoid函数:
Y’ = 1 / (1 + e^(-z))
该函数能够将函数 Z = w * X +b 的输出 Z 映射到(0 , 1)范围内的输出,
即此时 Y’ 结果代表一个(0,1)之间的关于该输入 X 属于某个类别的概率预测
最后将 Y’ 和原始标签 Y 进行对比,比较模型给出的预测是否符合实际情况
这个两者 Y 和 Y’ 是否相符的评判需要一个标准,即一个数值来评判两者差距大小,只有
这个数值缩小的时候,才证明模型的优化向着合理的方向发展
对单个样本输出是否符合预期的评判使用 loss function ,w 的变化会导致loss function 输出的变化,从而根据loss function 输出的变化,修改w,反复这样过程得出最优解;
loss function 可以采用欧氏距离如 (Y - Y’) ^ 2 ,但是使用该方式得出的loss function图形存在上下波动,梯度下降法很可能陷入局部最小值中,因此普遍采用交叉熵:
f ( y ) = - (y * log(y’) + (1 - y) * log( 1- y’)
对样本整体进行评判采用cost function, cost function 对整体loss function 进行求和,是总体的成本(cost),因此要找到合理的w , b使得整体成本下降。
知道了cost, 如何根据它得出w如何更新?
w 更新规则-梯度下降:
w = w + a * d J(w) / dw
a 是学习率,代表每次梯度下降有多快,a 越大收敛越快,但越不精确。
最终的逻辑回归整体处理流程为: