机器学习——逻辑回归（Logistic Regression）

最新推荐文章于 2024-05-28 13:14:48 发布

皓皓家的

最新推荐文章于 2024-05-28 13:14:48 发布

阅读量187

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_37861936/article/details/103463710

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

逻辑回归（Logistic Regression）是一种经典的二分类算法，虽然被称为回归，但其实际上是分类模型，并常用于二分类。

1、逻辑回归（Logistic Regression）算法详解

sigmoid函数

$g(z)=\frac{1}{1+e^{-z}}$
自变量取值为任意数，值域为[0,1]
解释：将任意的输入映射到[0,1]的区间,将在线性回归中得到的预测值映射到sigmoid函数中，实现由值到概率的转换，从而完成分类任务。

实际上，sigmoid函数是由对数几率（属于正类可能性与负类可能性的比值的对数）
$p(y=1|x;\theta)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
有 $\ln(\frac{p(y=1|x;\theta)}{p(y=0|x;\theta)})=\theta_0+\theta_1x_1+\cdots+\theta_nx_n$

预测函数

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
其中 $\theta^Tx=\displaystyle\sum_{i=1}^n\theta_ix_i=\theta_0+\theta_1x_1+\cdots+\theta_nx_n$
分类任务：
$p(y=1|x;\theta)=h_\theta(x)$
$p(y=0|x;\theta)=1-h_\theta(x)$
整合有： $p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$

似然函数

$L(\theta)=\displaystyle\prod_{i=1}^mp(y|x;\theta)=\displaystyle\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-(h_\theta(xi))^{1-y_i}$
当似然函数取值最大时，数据的预测值恰好是真实值得概率最大

似然函数公式化简

由于似然函数包含累乘算术，将累乘变成累加有利于计算
根据 $\log A*B=\log A +\log B$ 则有
对数似然函数：
$\log L(\theta)=\log \displaystyle\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-(h_\theta(xi))^{1-y_i}$
展开化简：
$\displaystyle\sum_{i=1}^m\log(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i}$
$=\displaystyle\sum_{i=1}^m(y_i\log(h_\theta(x_i))+(1-y_i)\log(1-h_\theta(x_i)))$
对似然函数求最大值，引入目标函数 $J(\theta)=-\frac{1}{m}\log L(\theta)$ ，转换成求目标函数最小值。

目标函数

$J(\theta)=-\frac{1}{m}\log L(\theta)$

2、优化求解

梯度下降（gradient descent）

对 $\theta$ 求偏导，得 $\frac{\partial}{ \partial\theta_i}J(\theta)=\frac{1}{m}\displaystyle\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$
$x_i^j$ :代表第 $i$ 个样本的第 $j$ 个特征
根据梯度下降算法，有：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\displaystyle\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$
参数α叫学习率，代表每一步的步长，这个参数很关键，不能过大也不能过小。

随机梯度下降SGD (stochastic gradient descent)

梯度下降算法每次更新回归系数时都需要遍历整个数据集，当数据量很大的时候，该算法较为耗时，随机梯度下降算法的更新点在于：
每次只使用一个样本来更新回归系数，当新的样本到来时，分类器可以进行增量的更新。

改进的随机梯度下降

随机梯度下降会产生目标函数收敛速度慢，随机波动等问题。产生这个现象的原因是存在一些无法正确分类的样本点，也就是我们的数据集并非线性可分，logistic regression是线性分类模型，对非线性可分情况无能为力。然而我们的优化程序并没能意识到这些不正常的样本点，还一视同仁的对待，调整系数去减少对这些样本的分类误差，从而导致了在每次迭代时引发系数的剧烈改变。
对此，改进的随机梯度下降有以下优化点：

每次迭代时，调整更新步长 $\alpha$ 的值。随着迭代的进行， $\alpha$ 越来越小
随机选择样本更新回归系数

3、样本不均衡的解决方案

对于二分类数据样本，若正类样本数据量与负类样本数据量差距很大，会产生样本极度不均衡的现象，处理策略有：

下采样策略
目标：使得正类样本和负类样本数量一样少
从正类中随机选择一定数量（和负类样本数量相当）的样本，可使用numpy.random.choice方法实现
过采样策略
目标：使得负类样本的数量和正类样本数据一样多
方法：可采用SMOTE样本生成策略，构建新的样本
步骤：
①对于少数类中的每个样本 $x$ ,以欧式距离为标准计算其到少数类样本集中所有样本的距离，得到其K近邻
②根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每个少数类样本 $x$ ,从其K近邻中随机N个距离
③对于每个随机选出的距离，分别与原样本按照公式构建新的样本
$x_{new}=x+rand(0,1)*d_i$
$d_i$ :对于每个样本而言，随机选中的距离