0630-Logistic Regression

最新推荐文章于 2024-11-17 19:14:48 发布

他不仅仅是幻想

最新推荐文章于 2024-11-17 19:14:48 发布

阅读量154

点赞数

分类专栏：数据科学文章标签：逻辑回归

本文链接：https://blog.csdn.net/mofangchenyunfeng/article/details/94384729

版权

数据科学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考资料：

机器学习|Coursera

1.线性回归不适合分类问题

受噪声影响太大
如图，增加额外样本(异常值)导致拟合效果变差： $J (θ)$ 增加

2.逻辑回归(Logistic Regression)

假设函数 $h_\theta(x)：$
LR是一种分类算法，假设函数 $h_θ(x)=g(\theta^Tx)=\frac{1}{1+e^{-θ^Tx}}$ ，其中g函数为sigmod函数(也称Logistic函数)，可以因变量的区间压缩至 $(0, 1)$ 。
从概率角度看，假设函数也可以表示为： $P(y^{(i)}=1)=\frac{1}{1+e^{-θ^Tx}}$ ；化简得： $\theta^Tx=ln\frac{P(y^{(i)}=1)}{1-P(y^{(i)}=1)}$ ，我们把 $\frac{P}{1-P}$ 记为发生比(odds)；可以看出，通过概率表达式 $P(y^{(i)}=1)$ ，我们将线性函数 $\theta^Tx$ 转化为了概率。

由上图可知，当 $θ^Tx≥0$ 时， $h_θ(x)≥0.5$ ， $y = 1$
决策边界Decision Boundary：
是假设的属性（由参数θ决定），而非训练集的属性。即一个假设对应一个决策边界。如下图， $h_\theta(x)$ 对应的决策边界为品红色的线。
若仍使用线性回归的代价函数 $J(\theta)_{Linear}$ ：
线性回归的代价函数 $J (θ)$ 并不适合logistic regression，因为假设函数 $h_θ(x)=\frac{1}{1+e^{-\theta^Tx}}$ 的高度非线性导致在 $minimizeJ(\theta)$ 的过程中难以找到全局最优点；如左图（not-convex意为非凸）
合适的损失函数 $J(\theta)_{LR}$ ：
因为非凸性导致我们难以找到全局最优点，所以我们的想法就是将非凸函数转化为凸函数。如图，我们分别考虑 $y = 1$ 和 $y = 0$ 的情况：
当 $y = 1$ 时，若 $h_θ(x)→1$ ，则表明预测正确，令代价为0；
而当 $h_θ(x)→0$ 时，预测错误，我们给他一个很大的Cost作为惩罚；

当 $y = 0$ 时，同理。

我们将 $y = 1$ 和 $y = 0$ 的函数写在一起，得到了LR的成本函数：
$成本函数Cost(h_θ(x),y)_{LR}=-ylog(h_θ(x))-(1-y)log(1-h_θ(x))$
∴代价函数： $J(θ)_{LR}=\frac{1}{m}\sum_{i=1}^{m}Cost(h_θ(x^{(i)}),y^{(i)})_{LR}\tag{1-1}=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}ln(h_θ(x^{(i)})+(1-y^{(i)})ln(1-h_θ(x^{(i)}))]$
因为预测概率和真实概率最接近时，损失函数LL取最小值，所以公式(1-1)可以看成两个概率分布之间的距离，在学术上称为交叉熵，常用于分类问题；
公式(1-1)也可以表示为：
$对数损失函数/交叉熵LL=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}ln(h_θ(x^{(i)})+(1-y^{(i)})ln(1-h_θ(x^{(i)}))]$
从概率角度看交叉熵：
还是使用上文中简单的案例：0-1分类问题；
我们知道在逻辑回归中， $h_\theta(x)$ 的本质是概率值，所以我们用p表示 $p_{y=1}=h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ ，且 $p_{y=0}=1-p$ ；
所以第i个样本的概率分布函数可以表示为：
$P(y^{(i)}|x^{(i)})=\begin{cases} p & ,y^{(i)}=1 \\ 1-p & ,y^{(i)}=0 \end{cases}$
我们可以把上式简化为： $P(y^{(i)}|x^{(i)})=p^{y^{(i)}}*(1-p)^{1-y^{(i)}}$ ，注意上标(i)表示属于第i个样本，而 $p^{y}$ 则表示正常的p的y次方；
所以全体样本的分布（即似然函数）为： $P_{总}=\prod_{i=1}^{m}[p^{y^{(i)}}*(1-p)^{1-y^{(i)}}]$
取对数（因为我们要求代价函数的最值，转化为ln函数方便计算）得：
$对数似然函数：ln(P_{总}) = ln(\prod_{i=1}^{m}[p^{y^{(i)}}*(1-p)^{1-y^{(i)}}])=\sum_{i=1}^{m}[y^{(i)}ln(p)+(1-y^{(i)})ln(1-p)]$
令 $J(\theta)=-\frac{1}{m}ln(P_{总})$ ，所以最大化似然估计即令代价函数最小；
PS：值得注意的是，即使没有明确的定义，在这里我们也令代价函数= $J(\theta)$ ，成本函数= $Cost(h_\theta(x^{(i)}),y^{(i)})$ ，且 $J(\theta)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_\theta(x^{(i)}),y^{(i)})$ 。
逻辑回归的梯度下降Gradient descent for Logistic：
逻辑回归的梯度下降和Linear的很相似，即：
$\theta_j:=\theta_j-α\frac{∂J(\theta)}{∂\theta}$
多分类问题：
转化为多个二分类，训练完成之后选择 $max_i(h_θ^{(i)}(x))$ ，对应的分类即为预测的分类：

3.随机梯度下降（Stochastic Gradient descent）

前面我们知道梯度下降的公式为： $\theta_j:=\theta_j-α\frac{\partial J(\theta)}{\partial \theta_j}$
因为： $J(θ)=\frac{1}{2m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2$ ，
所以上式还可以表示为：
$\theta_j:=θ_j-α\frac{1}{m}\sum_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2x_j^{(i)}$
其中向量 $\frac{\partial J(\theta)}{\partial \theta_j}$ 称为梯度。
而当样本数量m很大时，如果采用批量梯度下降(即使用全部数据)的方法来更新参数 $\theta$ ，则需要很长的时间来计算 $J(\theta)$ 。为了加速这一过程，我们考虑随机梯度下降的方法：
思想：
假设我们有m个数据点(样本)，随机选取若干个数据点，如 $x^{(1)},x^{(2)}...x^{(n)}(n<<m)$ (为了简化，这里我们用 $x^{(n)}$ 表示数据点，而非 $x^{(n)},y^{(n)})$ )；
之后我们用这n个数据点的梯度的平均值来估计损失函数的梯度，即用 $\frac{1}{n}\sum_{j=1}^{n}\frac{\partial J(\theta)}{\partial \theta_j}$ 来代替 $\frac{1}{m}\sum_{j=1}^{m}\frac{\partial J(\theta)}{\partial \theta_j}=\frac{\partial J(\theta)}{\partial \theta}$ 。
另外，我们也可以通过循环运算来提高可信度。