逻辑回归算法理论

最新推荐文章于 2024-08-19 22:58:31 发布

心若联通、如何移动。

最新推荐文章于 2024-08-19 22:58:31 发布

阅读量175

点赞数

分类专栏： logistic regression 文章标签：逻辑回归机器学习

本文链接：https://blog.csdn.net/qq_45435247/article/details/111225377

版权

logistic regression 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.逻辑回归理论

机器学习最常用的两种场景无非是分类、回归，其中：
分类：预测连续的、具体的数值。比如：支付宝里的芝麻信用分数评估，房价预测等。
回归：对各种事物分门别类，用于离散型预测。比如：图片分类，癌症类型诊断等。
当然机器学习除了分类、回归以外，还可用于聚类、降维等。
首先要明白的是逻辑回归是一个分类算法，不要被名字迷惑了，可用于二分类，多分类等。

下面来讲讲逻辑回归的理论知识：

对于分类问题，简单来讲，就是预测概率，对于二分类问题，我们通常用y=0或者y=1来表示样本标签，我们预测该样本标签 $y = 0$ 的概率为 $p$ ，这 $y = 1$ 的概率为 $1 - p$ ，然后我们只用通过比较 $p$ 与 $1 - p$ 的大小，就可以将该样本归于概率更大的一类。对于多分类问题，同样可以这么理解。对于有些场景，我们还可以设置一个阈值，当预测的值大于该阈值时，则可以将该样本划分为某一类（前面比较的 $p$ 和 $1 - p$ ，其实就相当于将阈值设为了0.5）。

首先对于线性回归假设函数：

${h_\theta}\left( x \right)={\theta^T}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

其中： $x_1,x_2,...x_n$ 是输入样本的 $n$ 个特征， $\theta_0, \theta_1, ...\theta_n$ 为每个特征的权重系数。

我们如果用线性回归来做二分类的话，可能会得到远大于1或者小于0的值，得到的结果可能会让我们有点不好理解，因为概率肯定都是在0~1之间的。

所以我们就对线性回归做了如下的改进，变成下面的逻辑回归假设函数，使模型的输出变量范围始终在0和1之间。逻辑回归模型的假设是：
$h_\theta \left( x \right)=g\left(\theta^{T}X \right)$
其中： $X$ 代表特征向量， $g$ 代表逻辑函数（logistic function)是一个常用的逻辑函数为S形函数（Sigmoid function），公式为： $g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。
python代码实现：

import numpy as np   
def sigmoid(z):   
   return 1 / (1 + np.exp(-z))

该函数的图像为：
在这里插入图片描述
就可以看到经过逻辑回归运算的输出值都被映射在了[0,1]之间。
所以我们就得到逻辑回归的表达式：
${h_\theta}\left( x \right)=\frac{1}{1+{{e}^{-{\theta^T}X}}}$

$h_\theta \left( x \right)$ 的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1的可能性（estimated probablity）即 $h_\theta \left( x \right)=P\left( y=1|x;\theta \right)$ 例如，如果对于给定的 $x$ ，通过已经确定的参数计算得出 $h_\theta \left( x \right)=0.7$ ，则表示有70%的几率 $y$ 为正向类，相应地 $y$ 为负向类的几率为1-0.7=0.3。

2.代价函数

我们知道了逻辑回归算法是怎么运行的了，那么它的参数该 $\theta_0, \theta_1, ...\theta_n$ 如何确定呢。
先解释一下损失函数（loss function), 代价函数(cost function)，其实就是用来衡量真实值与预测值之间的误差的，误差越大，代价也就越大。
区别就是：
（1）损失函数(Loss function)是定义在单个训练样本上的，也就是只算一个样本的误差；
（2）代价函数(Cost function)是定义在整个训练集上面的，也就是所有样本的误差的总和的平均，也就是损失函数的总和的平均，有没有这个平均其实不会影响最后的参数的求解结果。

所以任务就是寻找一组最优参数 $\theta_0, \theta_1, ...\theta_n$ ，使得代价函数最小，即：寻找一组能使得预测值与真实值最为接近的参数。

我们先直接给出他的损失函数：

$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$

其中： $y$ 为样本的真实标签， $h_\theta(x)$ 为预测的标签值。
其可以拆分为：
$i f : y = 1$ $Cost\left( {h_\theta}\left( x \right),y \right)=-log\left( {h_\theta}\left( x \right) \right)$
$i f : y = 0$ $Cost\left( {h_\theta}\left( x \right),y \right)=-log\left( 1-{h_\theta}\left( x \right) \right)$

这样构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 函数的特点是：当实际的 $y = 1$ 且 ${h_\theta}\left( x \right)$ 也为 1 时误差为 0，当 $y = 1$ 但 ${h_\theta}\left( x \right)$ 不为1时误差随着 ${h_\theta}\left( x \right)$ 变小而变大；当实际的 $y = 0$ 且 ${h_\theta}\left( x \right)$ 也为 0 时代价为 0，当 $y = 0$ 但 ${h_\theta}\left( x \right)$ 不为 0时误差随着 ${h_\theta}\left( x \right)$ 的变大而变大。

将构建的
$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$
带入代价函数得到：
$J\left( \theta \right) = \frac{1}{m}\sum\limits_{i=1}^{m}{Cost{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right),\mathop{y}^{\left( i \right)} \right)}}$

$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
即：
$J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
其中： $i$ 为样本索引， $(i = 1, 2, . . . m)$
Python代码实现：

import numpy as np
    
def cost(theta, X, y):
    
  theta = np.matrix(theta)
  X = np.matrix(X)
  y = np.matrix(y)
  first = np.multiply(-y, np.log(sigmoid(X* theta.T)))
  second = np.multiply((1 - y), np.log(1 - sigmoid(X* theta.T)))
  return np.sum(first - second) / (len(X))

在得到这样一个代价函数以后，我们便可以用梯度下降算法来求得能使代价函数最小的参数了。算法为：

Repeat { $\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)$ (simultaneously update all ) }

求导后得到：

Repeat { $\theta_j := \theta_j - \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}$ (simultaneously update all ) }
其中： $j$ 表示样本的特征索引， $x_j$ 表示样本的样本的第 $j$ 个特征， $\theta_j$ 表示样本第 $j$ 个特征的权重系数， $j = 1, 2, . . . n$

最后为了避免过拟合，还可以在添加正则化，即：在代价函数中添加惩罚项，对于添加了正则项的代价函数，在求导时，也需要对正则项进行求导。

3.总结

所以总的一个过程就是：
在这里插入图片描述

心若联通、如何移动。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归算法理论

逻辑回归理论机器学习最常用的两种场景无非是分类、回归，其中：分类：预测连续的、具体的数值。比如：支付宝里的芝麻信用分数评估，房价预测等。回归：对各种事物分门别类，用于离散型预测。比如：图片分类，癌症类型诊断等。当然机器学习除了分类、回归以外，还可用于聚类、降维等。首先要明白的是逻辑回归是一个分类算法，不要被名字迷惑了，可用于二分类，多分类等。下面来讲讲逻辑回归的理论知识：对于分类问题，简单来讲，就是预测概率，对于二分类问题，我们通常用y=0或者y=1来表示样本标签，我们预测该样本标签y=0y=
复制链接

扫一扫

专栏目录