逻辑回归-概述与推导

1.概述

逻辑回归为分类模型,适用于二分类问题。思想基于线性回归,属于广义线性回归模型,其公式为: h θ ( x ) = 1 1 + e − z = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^{T}x}} hθ(x)=1+ez1=1+eθTx1,其中 z = θ 0 + θ 1 x 1 + . . . + θ n x n = θ T x z=\theta_0+\theta_1x_1+...+\theta_nx_n=\theta^Tx z=θ0+θ1x1+...+θnxn=θTx

LR算法即是将线性函数的结果映射到了sigmoid函数中。最终,大于0.5则判为1;小于0.5则判为0。

2.知识准备(关于sigmoid函数)

可以看到上述的预测公式,其中涉及到了sigmoid函数 f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1,这个函数的作用是将实数域映射到(0, 1)区间上。对应的图像如下所示:

sigmoid函数图像

对于 f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1而言,有 f ′ ( x ) = ( 1 1 + e − x ) ′ = − ( 1 + e − x ) − 2 e − x ( − 1 ) = e − x ( 1 + e − x ) − 2 = f ( x ) [ 1 − f ( x ) ] f'(x)=(\frac{1}{1+e^{-x}})'=-(1+e^{-x})^{-2}e^{-x}(-1)=\frac{e^{-x}}{(1+e^{-x})^{-2}}=f(x)[1-f(x)] f(x)=(1+ex1)=(1+ex)2ex(1)=(1+ex)2ex=f(x)[1f(x)]。该结论一会在推导中需要使用~

3.算法推导

面试常常问到关于LR算法的推导,需要弄清楚。

假设数据集{ x i , y i x_i,y_i xi,yi}包含N个样本, x i x_i xi为第i个样本对应特征的向量(在此省略 x i ( 1 ) , x i ( 2 ) , . . . , x i ( m ) x_{i(1)},x_{i(2)},...,x_{i(m)} xi(1),xi(2),...,xi(m)),m为特征个数, y i y_i yi为样本的真实类别, h θ ( x i ) h_\theta(x_i) hθ(xi)为模型输出结果, θ T x i = z i \theta^Tx_i=z_i θTxi=zi

此时,有预测函数: h θ ( x i ) = 1 1 + e − z i = 1 1 + e − θ T x i h_\theta(x_i)=\frac{1}{1+e^{-z_i}}=\frac{1}{1+e^{-\theta^Tx_i}} hθ(xi)=1+e

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
逻辑回归是一种二分类模型,它的目的是预测一个样本属于某一类的概率。逻辑回归模型的原理公式推导如下: 假设我们有一个训练集$D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$,其中$x_i=(x_{i1},x_{i2},...,x_{id})^T$是第$i$个样本的$d$维特征向量,$y_i\in\{0,1\}$是第$i$个样本的标记。我们的目标是学习一个分类器$f(x)$,使其能够将任意一个样本$x$正确地分类为0或1。 假设我们使用sigmoid函数$g(z)=\frac{1}{1+e^{-z}}$作为分类器的激活函数,其中$z=w^Tx$,$w=(w_1,w_2,...,w_d)^T$是模型的参数向量。我们可以将$g(z)$理解为样本$x$属于类1的概率。为了训练模型,我们需要定义一个损失函数$L(w)$,它能够反映模型预测结果与实际标记之间的差距。 一种常见的损失函数是交叉熵损失函数,它的定义如下: $$L(w)=-\sum_{i=1}^n[y_ilog(g(z_i))+(1-y_i)log(1-g(z_i))]$$ 其中$z_i=w^Tx_i$,$g(z_i)$表示样本$x_i$属于类1的概率,$y_i$是样本$x_i$的实际标记。交叉熵损失函数的含义是模型预测结果与实际标记之间的距离,距离越小,损失函数的值越小,模型的性能越好。 为了最小化损失函数,我们需要使用梯度下降算法求解模型参数$w$。具体来说,我们需要不断地对损失函数求导,并更新参数$w$,使得损失函数不断减小,最终收敛到最优解。 损失函数对参数$w$的导数为: $$\frac{\partial L(w)}{\partial w_j}=\sum_{i=1}^n(g(z_i)-y_i)x_{ij}$$ 根据梯度下降算法的更新公式,我们可以得到: $$w_j=w_j-\alpha\frac{\partial L(w)}{\partial w_j}$$ 其中$\alpha$是学习率,控制着参数更新的步长。 利用这个公式,我们可以不断地迭代更新参数$w$,直到损失函数收敛到最小值。最终得到的模型就可以用来预测新样本的分类结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值