001_wz_sf_逻辑回归（Logistic Regression）

最新推荐文章于 2024-07-04 11:05:56 发布

王泽的随笔

最新推荐文章于 2024-07-04 11:05:56 发布

阅读量254

点赞数

分类专栏：算法文章标签：算法 python 深度学习逻辑回归

本文链接：https://blog.csdn.net/qq_40869711/article/details/113059363

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.什么是逻辑回归

逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

注：代价函数是衡量我们训练的模型的好坏程度，为了训练逻辑回归模型的参数w和参数b，我们需要一个代价函数，通过训练代价函数来得到参数 $w$ 和 $b$ ；要注意区别代价函数和损失函数，代价函数 $J (w, b)$ 是对于整个训练样本来说的，而损失函数 $L(\hat{y},y)$ 是对于单个的训练样本来说的。

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）

回归模型中，y是一个定性变量，比如 $y$ =0或1，logistic方法主要应用于研究某些事件发生的概率

2.逻辑回归的优缺点

优点：

速度快，适合二分类问题
简单易于理解，直接看到各个特征的权重
能容易地更新模型吸收新的数据

缺点：

对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

3.Regression的常规步骤

寻找 $h$ 函数（即预测函数）
构造 $J$ 函数（即损失函数）
想办法使得 $J$ 函数最小求得回归参数 $\theta$

4.构造预测函数 $h (x)$

LR逻辑回归是一种监督学习分类算法，其实现了给定数据集到0,1的一种映射。

给定数据集 $D=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})\}$ 其中 $x_{i},y_{i})$ 表示第i个样本，其中 $x_{i}=(x_{i_{1}},x_{i_{2}},...,x_{i_{n}})$ ,即每个数据有n个特征，类别 $y=\{0,1\}$ ，要求训练数据，将数据分成两类0或1。

假定 $x_{i}$ 的个特征为线性关系，即：
$z=\theta+b=\theta_{1}x_{1}+\theta_{2}x_{2}+...\theta_{n}x_{n}+b$

现将数据样本 $x_{i}$ 添加一个特征 $x_{0}=1$ ，将 $b$ 作为 $\theta_{0}$ ，有：
$z=\theta+b$ $=b*1+\theta_{1}x_{1}+\theta_{2}x_{2}+...\theta_{n}x_{n}$ $=\theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...\theta_{n}x_{n}+b=\theta^TX$

以上实现了用样本 $x_{i}$ 的n个特征来表示样本的表达式，现在需要寻找一个映射使得 $z$ 可以转换为0或1，这里选用Sigmoid函数，函数形式为：
$g(z)=\frac{1}{1+e^{-z}}$
在这里插入图片描述
当输入一个 $z$ 时， $y$ 输出一个0-1之间的数，假定y>0.5则最终结果判为1 ，y<0.5最终结果为0。当y=0.8时，最终结果为1,y=0.8也表征了此时输出为1的概率，令：
$h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$
将样本特征线性表示，然后输入到Sigmoid函数，输出结果在0-1之间，并且输出结果表征了分类结果为类别1和类别0的概率，即：
$P(y=1│x;θ)=h_\theta (x)$ $P(y=0│x;θ)=1-h_\theta(x)$
即 $h (x)$ 输出刚好代表了结果为1的概率
现将两式合并为：
$P(y|x;\theta)=h_\theta(x)^y*(1-h_\theta(x))^{1-y}$
可以在y=0和y=1的情况下验证此式

5.构造损失函数 $J$ （m个样本，每个样本具有n个特征）

代价函数（成本（cost）函数)h和 $J$ 函数如下，它们是基于最大似然估计推导得到的:
$cost(h_\theta(x),y)=\left\{\begin{matrix} -log(h_\theta(x)),y=1\\ -log(1-h_\theta(x)),y=0\\ \end{matrix}\right.$ $J(\theta)= \frac{1}{m}\sum{^m_{i=1}}cost(h_\theta(x_i),y_i)=-\frac{1}{m} \begin{bmatrix} \sum{^{i=m}_{i=1}}(y_i*logh_\theta(x_i)+(1-y_i)*log(1-h_\theta(x_i))) \end{bmatrix}$

6.推导损失函数的过程

假设每个样本均独立同分布，则根据最大似然估计有：
$L(\theta)=\prod^{i=m}_{i=1}P(y_i|x_i;\theta)=\prod^{i=m}_{i=1}h_\theta(x_i)^{y_i}*(1-h_\theta(x_i))^{1-y_i}$
进而求最大对数似然估计：
$l(\theta)=logL(\theta)$ $=\sum{^{i=m}_{i=1}}(y_i*logh(x_i)+(1-y_i)*log(1-h(x_i)))$
最大似然估计就是求使得 $l(\theta)$ 取最大值时的 $\theta$
记损失函数为：
$J(\theta)=-\frac{1}{m}l(\theta)$ $=-\frac{1}{m}\sum{^{m}_{i=1}}(y_i*logh_\theta(x_i)+(1-y_i)*log(1-h_\theta(x_i)))$
损失函数表征预测值与真实值之间的差异程度，如果预测值与真实值越接近则损失函数应该越小，在此损失函数可以取为最大似然估计函数的相反数，其次除以m这一因子并不改变最终求导极值结果，通过除以m可以得到平均损失值，避免样本数量对于损失值的影响。
接下来采取梯度下降法，让损失函数 $J$ 对于 $\theta$ 求偏导：
在这里插入图片描述
得到 $\theta_j$ 的迭代式：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum{^m_{i=1}}(h_\theta(x_i)-y_i)x_{i_j},j=0,1,2,...,n$

7.向量化

向量化（Vectorization）是使用矩阵计算来代替for循环，以简化计算过程，提高效率。
向量化过程：
约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：
在这里插入图片描述
$g (A)$ 的参数 $A$ 为一列向量，所以实现 $g$ 函数时要支持列向量作为参数，并返回列向量。
$\theta$ 迭代式可以改为：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum{^m_{i=1}}(h_\theta(x_i)-y_i)x_{i_j}=\theta_j-\alpha\frac{1}{m}\sum{^m_{i=1}}e_ix_{i_j}=\theta_j-\alpha\frac{1}{m}x^TE;i=1,2,...,m,j=0,1,2,...,n$
综上所述，Vectorization后θ更新的步骤如下：

求 $A=x*\theta$
求 $E = g (A) - y$
求 $\theta=\theta_j-\alpha\frac{1}{m}x^TE$

8.正则化

暂时未学到，后面补充

参考文章：

机器学习算法–逻辑回归原理介绍
 机器学习–LR逻辑回归与损失函数理解

王泽的随笔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
001_wz_sf_逻辑回归（Logistic Regression）

1.什么是逻辑回归逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。注：代价函数是衡量我们训练的模型的好坏程度，为了训练逻辑回归模型的参数w和参数b，我们需要一个代价函数，通过训练代价函数来得到参数www和bbb；要注意区别代价函数和损失函数，代价函数J(w,b)J(w,b)J(w,b)是对于整个训练样本来说的，而损失函数L(y^,y)L(\hat{y},y)L(y^,y)是对于单个的训练样本来说的。L
复制链接

扫一扫