逻辑斯蒂回归模型阐释及应用
本文详细说明及代码请参考:代码下载(文档代码原创)
1. 逻辑斯蒂分布 (Logistic distribution)
标准逻辑斯蒂分布的分布函数𝑭(𝒙)密度函数𝒇(𝒙)的图像如图所示:
分布函数𝑭(𝒙)属于逻辑斯蒂函数,其图形是一条S形曲线。该曲线以点 (𝝁, 𝟏/𝟐) 为中心对称,即满足 𝑭(−𝒙+𝝁)−𝟏/𝟐=−𝑭(𝒙−𝝁)+𝟏/𝟐 。
2. 二项逻辑斯蒂回归模型(Binomial logistic regression model)
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布 𝑷(𝒀|𝑿)表示,形式为参数化的逻辑斯蒂分布。随机变量𝑿取值为实数,随机变量𝒀取值为 1 或 0 。通过监督学习的方法来估计模型参数。其条件概率分布:
其中,𝒙∈𝑹^𝒏是输入,𝒀∈{𝟎, 𝟏}是输出,𝒘∈𝑹^𝒏和𝒃∈𝑹是参数,𝒘称为权向量,𝒃称为偏置,𝒘⋅𝒙为𝒘和𝒙的内积。
3. 事件的对数几率(Log odds)
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 𝒑 ,那么该事件的几率是 𝒑/(𝟏−𝒑) ,该事件的对数几率(Log odds)或 𝒍𝒐𝒈𝒊𝒕 函数是
结合概率将上等式变换为:
4. 极大似然估计法(Maximum likelihood estimation,MLE)
设𝑷(𝒀=𝟏│𝒙)= 𝝅(𝒙,𝒘),𝑷(𝒀=𝟎│𝒙)= 𝟏−𝝅(𝒙,𝒘),似然函数为:
对似然函数取对数,加负号(将 Max 转化为 Min ),得到逻辑斯蒂回归模型的损失函数:
5. 逻辑斯蒂模型的应用
本应用使用鸢尾花数据集,结果展示如下:
本文详细说明及代码请参考:代码下载(代码由个人编写)