经典的二分类算法
是分类而不是回归,也可进行多分类,则要用到softmax(以后再讲)
问题:
是什么算法?分类还是回归?
为什么要用到似然函数
怎样转换为梯度下降任务
参数怎么更新
参数稳定后概率意义
首先从线性回归获得预测值,再经过sigmoid函数将预测值对应到0-1区间上
其实就获得了以我们的预测值(权重参数和变量的结合)为参数的sigmoid函数
逻辑回归分类的阈值是自己设定的,sigmoid函数默认设定的阈值是0.5,所以在应用的时候,可以尝试多设定阈值,然后结合混淆矩阵来看模型效果
逻辑回归的目的就是,不断调整参数,使数据得到最合适的分类
也就是分类的比例是随着权重参数的调整而发生改变,直到认为是最合适的分类(权重参数是最佳的分类系数)
分类:不断调整的权重参数使从线性回归得到的预测值得到其对应的概率值,由概率值确定是属于哪一类
(不同权重参数也就会使其预测值不同最后导致概率不同,其分类也就不同)
那么如何确定是最合适的分类呢
同样的通过似然函数——什么参数使数据得到最真实的分类的概率最大,即越贴合其真实情况
似然函数:各个sigmoid函数的乘积
对数似然:log(似然函数)——乘积转换为累和
之后需要乘以-1/所有样本数量,将梯度任务转换为梯度下降任务,同时对所有样本都进行考虑
求偏导——对每个权重参数各自求偏导
得到偏导的结果后对参数进行更新
需要考虑学习率、所有样本数量、更新方向
注意这里的参数更新更像是梯度下降(需要乘上学习率,直到最后参数会稳定)
参数稳定后能得到进行分类的概率——多大概率是属于1,多大概率是属于0(01这里是类别)