Logistic回归算法理解之从模型到损失函数、参数求解、预测

    李航博士统计学习方法一书中,有以下描述: 

 

    统计学习方法都是由模型,策略,和算法构成的,即统计学习方法由三要素构成,可以简单表示为:

 

    

    对于logistic回归来说,模型自然就是logistic回归,策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量预测错误程度,算法则是求解过程

模型:

    模型见西瓜书P59.

损失函数:

    logistic回归算法使用的是对数似然损失函数:

    

   其中, 是指(参考西瓜书P59)。当y=1时,假定这个样本为正类。如果此时(假设的极限情况),则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确,总的cost=0 。但是如果此时预测的概率,那么当y=0时,推理过程跟上述完全一致,不再累赘。

    将损失函数合并为一个,即可得到单个样本的损失函数:

    

    推广到全体样本的损失函数,最小化损失函数,就是使每个样本属于其真实标记的概率越大越好(注意损失函数里面负号的意义):

    

    上式又被称为交叉熵损失函数,该式子是西瓜书P59页式3.27的另一种表达方式。

    接下来就是最小化损失函数,求解参数的过程。

参数求解:

    对loss函数求导得到:

    ,其中是指w和b。

    接下来只需根据梯度下降法就可以求得参数的解。

预测:

    如果需要预测一个为止数据x,属于那个类,只需要带入(即指logistic回归的模型),最简单的决策方法,如果(即)大于等于0.5属于类别1,反之属于类别0,当然也可以属于其他的决策方法。

 

参考:https://blog.csdn.net/bitcarmanlee/article/details/51165444  ,感谢作者

参考:https://blog.csdn.net/danieljianfeng/article/details/41901063, 感谢作者

参考:《机器学习_周志华》

 

 

展开阅读全文

没有更多推荐了,返回首页