1.sigmoid函数
这个函数图像如下:
这个函数能将实数域映射到(0,1),并且可导,导数值在(2.5,+inf)变化缓慢,图像在(0,2.5)极为陡峭。导数还满足如下特性(计算机可直接计算):
2.极大似然法(MLE)估计Logistic回归参数
将下列式子精简:
, ,都为行向量, 为概率预测函数。
记 表示在参数 和输入 的条件下,对应标签为1的概率。显然:
对于每个样本 ,
当 时, ,
当 时, ,
而根据数据集估计的概率为:
单个样本 (一个样本可以看成一次伯努利事件)的似然函数:
整个数据集上的似然函数:
3.梯度下降法与牛顿迭代法:
3.1梯度下降法推导:
与线性回归损失函数的梯度下降原理相似:
为参数向量 的第t个参数,共有k+1个参数:
3.2牛顿迭代法推导:
假设要求一元函数 的最优目标(先求极大或极小值), ,根据泰勒公式推导如下:
对于多元函数的递推公式为:
其中为多元函数的海塞矩阵(Hessain Matrix)
定义如下:
海塞矩阵每一个元素的求法如下,其中 、 为参数向量 的第p、q个参数,p可以等于q,共有k+1个参数:
原理介绍的差不多了,下一步就是写代码实现一下了。
参考文献:周志华《机器学习》 李航《统计学习方法》