李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（1）·逻辑斯蒂回归模型

最新推荐文章于 2022-06-13 10:53:41 发布

tina_ttl

最新推荐文章于 2022-06-13 10:53:41 发布

阅读量3.7k

点赞数 4

分类专栏：机器学习_machine learning 文章标签：机器学习

本文链接：https://blog.csdn.net/tina_ttl/article/details/53519391

版权

本文详细介绍了逻辑斯蒂分布，包括其数学定义、均值和方差。接着讨论了二项逻辑斯蒂回归模型，用于二分类问题，其特点是通过逻辑斯蒂分布来描述样本属于某一类别的概率。模型参数通过极大似然估计求解。最后提到了多项逻辑斯蒂回归在多类分类问题中的应用。

摘要由CSDN通过智能技术生成

第6章 logistic regression与最大熵模型（1）·逻辑斯蒂回归模型

标签（空格分隔）：机器学习教程·李航统计学习方法

第6章 logistic regression与最大熵模型1逻辑斯蒂回归模型
Logistic distribution
二项逻辑斯蒂回归模型及其特点
- 1 二项逻辑斯蒂回归模型
- 2 二项逻辑斯蒂回归模型的特点
二项逻辑斯蒂回归模型参数的估计
多项逻辑斯蒂回归
二项逻辑斯蒂回归和多项逻辑斯蒂回归
参考文献

逻辑斯蒂：logistic
李航书中称之为：逻辑斯蒂回归模型
周志华书中称之为：对数几率回归模型
Andrew NG书中称之为：逻辑回归
……好吧！好多不同的名称，其实都是一种方法，晕了好久……

为了利用逻辑斯蒂分布去进行回归问题的分析，首先，必须知道什么是逻辑斯蒂分布，所以，本节主要讨论逻辑斯蒂分布，它是一个连续分布，与高斯分布非常像；

1 Logistic distribution

The Logistic distribution is a continuous probability density function that is symmetric
and uni-modal. It is similar in appearance to the Normal distribution and in practical
applications, the two distributions cannot be distinguished from one another.

1.1 一维逻辑斯蒂分布的数学定义

分布函数
$F (x) = 1 1 + e - ( x - μ ) / σ$ $F(x)=\frac{1}{1+e^{-(x-\mu)/\sigma}}$
注1：也可以写成
$F (x) = e ( x - μ ) / σ e ( x - μ ) / σ + 1$ $F(x)=\frac{e^{(x-\mu)/\sigma}}{e^{(x-\mu)/\sigma}+1}$
注2：分布函数（即概率累积函数）的导数
$F' (x) = - ( 1 + e - ( x - μ ) / σ ) ' ( 1 + e - ( x - μ ) / σ ) 2 = - (- 1 σ) e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2 = 1 σ e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2$ $F'(x)=-\frac{(1+e^{-(x-\mu)/\sigma})'}{(1+e^{-(x-\mu)/\sigma})^2}= -\left ( -\frac{1}{\sigma} \right )\frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}= \frac{1}{\sigma}\frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}$
概率密度函数
$f (x) = 1 σ * e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2$ $f(x)=\frac{1}{\sigma}* \frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}$
logistic涉及两个参数
- $\mu$ ：location，控制分布函数的中心位置，或者说是概率密度函数对称轴的位置
- $\sigma$ ：scale，该参数控制着 $f(x)$ 的宽和高；其值越大， $f(x)$ 越矮越胖
  
  注：其实该参数 $\sigma$ 与正态分布的 $\sigma$ 含义相同，只不过相差了一个系数 $\frac{\pi^2}{3}$ （这个数字来自于logistic distribution的方差），