逻辑回归公式推导（Logistic Regression）

最新推荐文章于 2024-05-31 09:00:00 发布

naive_zhang

最新推荐文章于 2024-05-31 09:00:00 发布

阅读量1.7k

点赞数

分类专栏： machine_learning

本文链接：https://blog.csdn.net/naive_zhang/article/details/103218937

版权

machine_learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基本定义

逻辑回归通过拟合一条直线将不同类别的样本区分开来。对于二分类问题而言，给定一个训练样本集合(x,y) $^m$ ，其中x $\in$ $R^n$ ，y $\in$ {0,1}，目标是学习一条直线将两个类别的样本区分开来。逻辑回归通过学习一个假设函数h $_\theta(\mathbf x)$ =g( $\theta^T\mathbf x$ )来预测样本属于类别1的概率，其中函数g为sigmoid函数(简称s函数)，计算如公式1所示：

$\begin{aligned} g(z) & = \frac 1{1+e^{-z}} \tag{1} \end{aligned}$

s函数具有很好的数学性质，其一阶导数可以由自己表示，计算如公式2所示。将s函数带入可以得到逻辑回归的分类函数，计算如公式3所示，对于一个样本 $\mathbf x$ ，逻辑回归分类该样本属于类别 $\hat y$ =1和 $\hat y$ =0的概率分别如公式4和公式5所示：

$\begin{aligned} g'(z) & = g(z) (1-g(z) ) \tag{2} \end{aligned}$

$\begin{aligned} h_\theta(\mathbf x) = g(\theta^T\mathbf x) & = \frac 1{1+e^{-\theta^T\mathbf x}} \tag{3} \end{aligned}$

$\begin{aligned} \hat y =P(y=1|\mathbf x;\theta) = h_\theta(\mathbf x) = g(\theta^T\mathbf x) \tag{4} \end{aligned}$

$\begin{aligned} \hat y =P(y=0|\mathbf x;\theta) = 1- h_\theta(\mathbf x) = 1- g(\theta^T\mathbf x) \tag{5} \end{aligned}$

数学推导

对于给定的训练样本集合中的m个样本，其释然函数可以表示为：

$\begin{aligned} L(\theta) = \prod_{i=1}^m p(y| \mathbf x;\theta) = \prod_{i=1}^m h_\theta(\mathbf x) ^ {y_i} (1 - h_\theta(\mathbf x))^{1-y_i} \tag{6} \end{aligned}$

对数释然函数计算公式如下：

$\begin{aligned} l(\theta) =logL(\theta) = \sum_{i=1}^m y_i logh_\theta(\mathbf x) + (1-y_i) log(1 - h_\theta(\mathbf x)) \tag{7} \end{aligned}$

为了使对数释然函数最大，可以定义逻辑回归的损失函数为：

$\begin{aligned} J(\theta) = -\frac 1m l(\theta) \tag{8} \end{aligned}$

为了求得最优的参数 $\theta$ ，可以应用随机梯度下降算法对参数求偏导数，具体的推导公式如下：

$\begin{aligned} \frac{\partial J(\theta)}{\partial\theta_j} & = -\frac 1m \sum_{i=1}^m \Biggl(y ^{(i)} \frac 1{h_\theta(\mathbf x)}\frac{\partial h_\theta(\mathbf x)}{\partial\theta_j}-(1-y ^{(i)}) \frac 1{1-h_\theta(\mathbf x)}\frac{\partial h_\theta(\mathbf x)}{\partial\theta_j}\Biggr) \\ & = -\frac 1m \sum_{i=1}^m \Biggl(y ^{(i)} \frac 1{h_\theta(\mathbf x)}-(1-y ^{(i)}) \frac 1{1-h_\theta(\mathbf x)}\Biggr) \frac{\partial h_\theta(\mathbf x)}{\partial\theta_j}\\ & = -\frac 1m \sum_{i=1}^m \Biggl(y ^{(i)} \frac 1{g(\theta^T\mathbf x^{(i)})}-(1-y ^{(i)}) \frac 1{1-g(\theta^T\mathbf x^{(i)})}\Biggr) \frac{\partial g(\theta^T\mathbf x^{(i)})}{\partial\theta_j}\\ & = -\frac 1m \sum_{i=1}^m \Biggl(y ^{(i)} \frac 1{g(\theta^T\mathbf x^{(i)})}-(1-y ^{(i)}) \frac 1{1-g(\theta^T\mathbf x^{(i)})}\Biggr) g(\theta^T\mathbf x^{(i)})(1-g(\theta^T\mathbf x^{(i)})) x_j^{(i)}\\ & = -\frac 1m \sum_{i=1}^m \Biggl(y ^{(i)} -g(\theta^T\mathbf x^{(i)})\Biggr) x_j^{(i)}\\ & = \frac 1m \sum_{i=1}^m (h_\theta(\mathbf x ^{(i)})-y ^{(i)}) x_j^{(i)} \end{aligned}$

将求得的偏导带入梯度下降公式，可以得到参数 $\theta$ 的更新公式如下：

$\begin{aligned} \theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial\theta_j} = \theta_j - \alpha \frac 1m \sum_{i=1}^m (h_\theta(\mathbf x ^{(i)})-y ^{(i)}) x_j^{(i)} \tag{9} \end{aligned}$