逻辑回归模型公式推导

1. 二项逻辑回归

1.1 对数几率

L o g i s t i c Logistic Logistic 回归需要做的就是找到分类概率 P ( Y = 1 ) P(Y=1) P(Y=1) 与输入向量 x x x 的直接关系,然后通过比较概率值来判断类别。所以,我们必须找到一个函数,使输入向量能够直接映射到概率所属的 [ 0 , 1 ] [0,1] [0,1] 中,且该函数最好是连续可导的,方便进行参数的优化,于是我们找到了以下的函数
y = 1 1 + e − ( w T x + b ) y= \frac{1}{1+e^{-(w^Tx+b)}} y=1+e(wTx+b)1
我们将一个正例的概率与反例概率的比称之为几率,其对数形式就称为对数几率,设 y y y 为正例的概率,对数几率表达为 l n y 1 − y ln \frac{y}{1-y} ln1yy。将上面的函数式带入得到:
l n y 1 − y = w T x + b ln \frac{y}{1-y} = w^Tx+b ln1yy=wTx+b又因为 y y y 为正例,即 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1x) ,将其带入可得:
l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w T x + b ln \frac{P(Y=1|x)}{1-P(Y=1|x)} = w^Tx+b ln1P(Y=1x)P(Y=1x)=wTx+b整理得到:
P ( Y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) P(Y=1|x)= \frac{1}{1+e^{-(w^Tx+b)}} P(Y=1x)=1+e(wTx+b)1所以反例的概率为 1 − y 1-y 1y,即
P ( Y = 0 ∣ x ) = e − ( w T x + b ) 1 + e − ( w T x + b ) P(Y=0|x)= \frac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}} P(Y=0x)=1+e(wTx+b)e(wTx+b)

1.2 损失函数

在这里回归的函数较常使用的是平方差公式来作为损失函数,但是,如果在这里也使用平方差公式的话是不可以的,原因在于 S i g m o i d Sigmoid Sigmoid 函数,即 y = 1 1 + e x y= \frac{1}{1+e^{x}} y=1+ex1 是一个复杂的非线性函数,我们将逻辑回归的假设函数带入上式中,得到是一个非凸函数,函数包含多个局部极小值点,使用梯度下降法求解损失函数最小值时,可能导致函数最后结果并非总是全局最小。所以,我们需要为逻辑回归找到一个凸代价函数,最常用的损失函数就是使用极大似然求解的式子,其可以为逻辑回归提供一个凸的代价函数,这样有利于使用梯度下降对参数求解。

P ( Y = 1 ∣ x ) = g ( x ) P(Y=1|x)=g(x) P(Y=1x)=g(x) 对逻辑回归使用极大似然法进行计算的式子为:
∏ i = 1 N g ( x i ) y i [ 1 − g ( x i ) ] 1 − y i \prod_{i=1}^N g(x_i)^{y_i}[1-g(x_i)]^{1-y_i} i=1Ng(xi)yi[1g(xi)]1yi使用对数似然得到:
L ( w ) = ∑ i = 1 N [ y i log ⁡ g ( x i ) + ( 1 − y i ) log ⁡ ( 1 − g ( x i ) ) ] = ∑ i = 1 N [ y i log ⁡ g ( x i ) 1 − g ( x i ) + log ⁡ ( 1 − g ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − log ⁡ ( 1 + e w ⋅ x i ) ] \begin{aligned} L(w) &= \sum_{i=1}^N[y_i \log g(x_i)+(1-y_i) \log(1-g(x_i))] \\ &= \sum_{i=1}^N[y_i \log \frac{g(x_i)}{1-g(x_i)}+\log(1-g(x_i))] \\ &= \sum_{i=1}^N[y_i (w \cdot x_i)-\log(1+e^{w \cdot x_i})] \end{aligned} L(w)=i=1N[yilogg(xi)+(1yi)log(1g(xi))]=i=1N[yilog1g(xi)g(xi)+log(1g(xi))]=i=1N[yi(wxi)log(1+ewxi)] w w w 求导即可得到估计的参数。

2. 多项逻辑回归

上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型,用于多类分类。假设离散型随机变量 Y Y Y 的取值集合是 { 1 , 2 , ⋅ ⋅ ⋅ , K } \{1,2,···,K\} {1,2,,K}, 那么多项逻辑斯谛回归模型是
P ( Y = k ∣ x ) = e x p { w k ⋅ x } 1 + ∑ k = 1 K − 1 e x p { w k ⋅ x } P(Y=k|x)= \frac{exp\{w_k \cdot x\}}{1+ \sum_{k=1}^{K-1}exp\{w_k \cdot x \}} P(Y=kx)=1+k=1K1exp{wkx}exp{wkx}
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p { w k ⋅ x } P(Y=K|x)= \frac{1}{1+ \sum_{k=1}^{K-1}exp\{w_k \cdot x \}} P(Y=Kx)=1+k=1K1exp{wkx}1

逻辑回归是一种二分类模型,它的目的是预测一个样本属于某一类的概率。逻辑回归模型的原理公式推导如下: 假设我们有一个训练集$D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$,其中$x_i=(x_{i1},x_{i2},...,x_{id})^T$是第$i$个样本的$d$维特征向量,$y_i\in\{0,1\}$是第$i$个样本的标记。我们的目标是学习一个分类器$f(x)$,使其能够将任意一个样本$x$正确地分类为0或1。 假设我们使用sigmoid函数$g(z)=\frac{1}{1+e^{-z}}$作为分类器的激活函数,其中$z=w^Tx$,$w=(w_1,w_2,...,w_d)^T$是模型的参数向量。我们可以将$g(z)$理解为样本$x$属于类1的概率。为了训练模型,我们需要定义一个损失函数$L(w)$,它能够反映模型预测结果与实际标记之间的差距。 一种常见的损失函数是交叉熵损失函数,它的定义如下: $$L(w)=-\sum_{i=1}^n[y_ilog(g(z_i))+(1-y_i)log(1-g(z_i))]$$ 其中$z_i=w^Tx_i$,$g(z_i)$表示样本$x_i$属于类1的概率,$y_i$是样本$x_i$的实际标记。交叉熵损失函数的含义是模型预测结果与实际标记之间的距离,距离越小,损失函数的值越小,模型的性能越好。 为了最小化损失函数,我们需要使用梯度下降算法求解模型参数$w$。具体来说,我们需要不断地对损失函数求导,并更新参数$w$,使得损失函数不断减小,最终收敛到最优解。 损失函数对参数$w$的导数为: $$\frac{\partial L(w)}{\partial w_j}=\sum_{i=1}^n(g(z_i)-y_i)x_{ij}$$ 根据梯度下降算法的更新公式,我们可以得到: $$w_j=w_j-\alpha\frac{\partial L(w)}{\partial w_j}$$ 其中$\alpha$是学习率,控制着参数更新的步长。 利用这个公式,我们可以不断地迭代更新参数$w$,直到损失函数收敛到最小值。最终得到的模型就可以用来预测新样本的分类结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值