Logistic Regression| 逻辑斯谛分布+模型+参数估计| 《统计学习方法》学习笔记(二十一)

逻辑斯谛回归模型

1. 逻辑斯谛分布

定义:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} \\ f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} F(x)=P(Xx)=1+e(xμ)/γ1f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ
式中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数。

逻辑斯谛分布的密度函数 f ( x ) f(x) f(x)和分布函数 F ( x ) F(x) F(x)的图形如下图所示。分布函数属于逻辑斯谛函数,其图形是一条S形曲线(sigmoid curve)。该函数以点 ( μ , 1 2 ) (\mu,\frac{1}{2}) (μ,21)为中心对称,即满足
F ( − x + μ ) − 1 2 = − F ( x − μ ) + 1 2 F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2} F(x+μ)21=F(xμ)+21
曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 γ \gamma γ的值越小,曲线在中心附近增长得越快。

2. 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)表示,形式为参数化的逻辑斯谛分布。这里,随机变量X取值为实数,随机变量Y取值为1或0.这里通过监督学习的方法来估计模型参数。

定义:二项逻辑斯谛回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) ( 1 ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) ( 2 ) P(Y=1|x)=\frac{exp(w·x+b)}{1+exp(w·x+b)} \quad (1)\\ P(Y=0|x)=\frac{1}{1+exp(w·x+b)} \quad(2) P(Y=1x)=1+exp(wx+b)exp(wx+b)(1)P(Y=0x)=1+exp(wx+b)1(2)
这里, x ∈ R n x\in \bold R^n xRn是输入, Y ∈ { 0 , 1 } Y\in \{0,1\} Y{0,1}是输出, w ∈ R n w\in \bold R^n wRn b ∈ R b\in \bold R bR是参数, w w w称为权值向量,b称为偏置, w ⋅ x w·x wx为w和x的内积。

对于给定的输入实例x,按照式(1)和式(2)可以求得 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1x) P ( Y = 0 ∣ x ) P(Y=0|x) P(Y=0x)。逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。

有时为了方便,将权值向量和输入向量加以扩充,仍记作 w , x w,x w,x,即 w = ( w ( 1 ) , w ( 2 ) , ⋅ ⋅ ⋅ , w ( n ) , b ) T , x = ( x ( 1 ) , x ( 2 ) , ⋅ ⋅ ⋅ , x ( n ) , 1 ) T w=(w^{(1)},w^{(2)},···,w^{(n)},b)^T, \quad x=(x^{(1)},x^{(2)},···,x^{(n)},1)^T w=(w(1),w(2),,w(n),b)T,x=(x(1),x(2),,x(n),1)T。这时,逻辑斯谛回归模型如下:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) ( 3 ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x ) ( 4 ) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} \quad (3)\\ P(Y=0|x)=\frac{1}{1+exp(w·x)} \quad(4) P(Y=1x)=1+exp(wx)exp(wx)(3)P(Y=0x)=1+exp(wx)1(4)
查逻辑斯谛回归模型的特点:一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件发生的几率是 p 1 − p \frac{p}{1-p} 1pp,该事件的对数几率(log odds)或logit函数是
l o g i t ( p ) = l o g p 1 − p logit(p)=log\frac{p}{1-p} logit(p)=log1pp
对逻辑斯谛回归而言,由式(3)与式(4)得
l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w·x log1P(Y=1x)P(Y=1x)=wx
这就是说,在逻辑斯谛回归模型中,输出Y=1的对象几率是输入x的线性函数。或者说,输出 Y = 1 Y=1 Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。

换一个角度看,考虑对输入x进行分类的线性函数 w ⋅ x w·x wx,其值域为实数域。注意,这里 x ∈ R n + 1 , w ∈ R n + 1 x\in \bold R^{n+1},w\in \bold R^{n+1} xRn+1,wRn+1。通过逻辑斯谛回归模型定义式(3)可以将线性函数 w ⋅ x w·x wx转换为概率:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} P(Y=1x)=1+exp(wx)exp(wx)
这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.这样的模型就是逻辑斯谛回归模型。

3. 模型参数估计

逻辑斯谛回归模型学习时,对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋅ ⋅ ⋅ , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),···,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)},其中, x i ∈ R n , y i ∈ { 0 , 1 } x_i\in \bold R^n,y_i\in\{0,1\} xiRn,yi{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。

设: P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi (x),P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)

似然函数为
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi
对数似然函数为
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − l o g ( 1 + e x p ( w ⋅ x i ) ) ] L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\ =\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] \\ =\sum_{i=1}^N[y_i(w·x_i)-log(1+exp(w·x_i))] L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))]
L ( w ) L(w) L(w)求极大值,得到w的估计值。

这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法即拟牛顿法。

假设w的极大似然估计值时 w ^ \hat w w^,那么学到的逻辑斯谛回归模型为
P ( Y = 1 ∣ x ) = e x p ( w ^ ⋅ x ) 1 + e x p ( w ^ ⋅ x ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ^ ⋅ x ) P(Y=1|x)=\frac{exp(\hat w·x)}{1+exp(\hat w·x)} \\ P(Y=0|x)=\frac{1}{1+exp(\hat w·x)} P(Y=1x)=1+exp(w^x)exp(w^x)P(Y=0x)=1+exp(w^x)1

4. 多项逻辑斯谛回归

上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑回归模型(multi-nomial logistic regression model),用于多类分类。假设离散型随机变量Y的取值集合是 { 1 , 2 , ⋅ ⋅ ⋅ , K } \{1,2,···,K\} {1,2,,K},那么多项逻辑斯谛回归模型是
P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) , k = 1 , 2 , ⋅ ⋅ ⋅ , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) P(Y=k|x)=\frac{exp(w_k·x)}{1+\sum_{k=1}^{K-1}exp(w_k·x)},\quad k=1,2,···,K-1 \\ P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k·x)} P(Y=kx)=1+k=1K1exp(wkx)exp(wkx),k=1,2,,K1P(Y=Kx)=1+k=1K1exp(wkx)1
这里, x ∈ R n + 1 , w k ∈ R n + 1 x\in \bold R^{n+1},w_k\in \bold R^{n+1} xRn+1,wkRn+1

二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 逻辑斯谛回归(logistic regression)是一种用于分类问题的统计学习方法,属于监督学习中的一种。它的基本思想是通过建立模型学习不同特征之间的关系,然后使用这个模型去对未知数据进行分类。逻辑斯谛回归是一种线性模型,可用于进行二分类或多分类问题。在统计学习方面,逻辑斯谛回归是一种经典的机器学习方法。 ### 回答2: 逻辑斯谛回归是一种用于二分类问题的机器学习算法。其基本思想是将输入变量与一个sigmoid函数相乘,从而得到该分类的概率值。这个sigmoid函数将实数映射到[0,1]区间内,当概率趋近于0时,函数取到0,概率趋近于1时,函数取到1,当输入为0时,函数取到0.5。这个函数的形式为: $$\sigma(z)=\frac{1}{1+e^{-z}}=\frac{e^z}{1+e^z}$$ 其中z为线性回归模型的输出。逻辑斯谛回归通过最大似然估计来确定模型参数,目标是最大化似然函数。似然函数的形式为: $$L(w)=\prod_{i=1}^N[y_iP(y_i=1|x_i,w)+(1-y_i)P(y_i=0|x_i,w)]$$ 其中N为样本数,$y_i\in\{0,1\}$为样本i的类别,$y_i=1$表示正例,$y_i=0$表示反例。$P(y_i=1|x_i,w)$和$P(y_i=0|x_i,w)$分别表示当输入变量为$x_i$时,样本i的正例概率和反例概率。使用log函数对似然函数取负对数,然后对参数w求偏导,得到的结果为: $$\nabla L(w)=\sum_{i=1}^N[y_i-\sigma(w^Tx_i)]x_i$$ 使用梯度下降法来更新参数,得到迭代更新公式为: $$w^{(t+1)}=w^{(t)}+\eta\nabla L(w^{(t)})$$ 其中$\eta$为学习率,$w^{(t)}$表示t时刻的参数值。 逻辑斯谛回归可以扩展到多分类问题,称为softmax回归,也可以应用于不同的领域,例如医学诊断、金融风险评估等。 ### 回答3: 逻辑斯谛回归(Logistic Regression)是一种用于处理二分类问题的统计机器学习算法,其思想来源于逻辑学。在《统计学习方法》一书中,逻辑斯谛回归是目标函数为对数似然函数,利用梯度下降法或牛顿法估计参数的一类判别模型逻辑斯谛回归的模型可以表示为$$h_{\boldsymbol{w}}(\boldsymbol{x})=\sigma(\boldsymbol{w}^{\rm T} \boldsymbol{x})$$其中,$h_{\boldsymbol{w}}(\boldsymbol{x})\in [0,1]$ 表示 $\boldsymbol{x}$ 属于正类的概率,$\sigma(z)=\dfrac{1}{1+\mathrm{e}^{-z}}$ 是 sigmoid 函数。逻辑斯谛回归的目标函数是对数似然函数$$L(\boldsymbol{w})=\sum_{i=1}^{N}[y_i \log h_{\boldsymbol{w}}(\boldsymbol{x_i})+(1-y_i)\log(1-h_{\boldsymbol{w}}(\boldsymbol{x_i}))]$$其中,$N$ 是样本数量,$y_i\in\{0,1\}$ 是样本 $\boldsymbol{x_i}$ 的真实标记。对数似然函数一般通过梯度下降法或牛顿法来求得最优参数 $\boldsymbol{w}$。梯度下降法的更新公式是$$\boldsymbol{w} \leftarrow \boldsymbol{w}+\alpha \sum_{i=1}^{N}(y_i-h_{\boldsymbol{w}}(\boldsymbol{x_i}))\boldsymbol{x_i}$$其中,$\alpha$ 是学习率,$\boldsymbol{w}$ 初始化为 0 或其它随机值,重复进行上述更新直到收敛。牛顿法是一种二阶优化方法,其参数更新公式是$$\boldsymbol{w} \leftarrow \boldsymbol{w}-\boldsymbol{H}^{-1}\nabla_{\boldsymbol{w}}L(\boldsymbol{w})$$其中,$\boldsymbol{H}$ 是 Hessian 矩阵。牛顿法比梯度下降法收敛速度更快,但计算量更大。 逻辑斯谛回归的优点是模型参数较少,计算速度较快,且可以得到样本属于正类的概率。缺点是对异常值比较敏感,对特征之间的相关性比较敏感,容易出现过拟合。在实际应用中,可以通过添加正则化项或使用 L1、L2 正则化等方式来避免过拟合。 总之,逻辑斯谛回归是一种用于处理二分类问题的有效算法,可以应用于回归和分类问题。它的思想简单,实现容易,是初学者入门的理想算法之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值