【机器学习】Logistic回归的梯度上升法

最新推荐文章于 2024-02-22 18:34:17 发布

VIP文章 younger_feiyang_lee

最新推荐文章于 2024-02-22 18:34:17 发布

阅读量9k

点赞数 7

分类专栏：机器学习

本文链接：https://blog.csdn.net/HerosOfEarth/article/details/51988193

版权

一、问题引入
对于目标值是连续变量的问题来说，使用线性回归可能会解决得很好，即使问题不能用线性模型描述时，也可以使用局部加权线性回归解决。但现实生活中有一种问题，输出值只有两种情况：yes or no.这类问题常见有：电子邮箱中的垃圾邮件分类(spam or not spam)，肿瘤为良性或者恶性等。在这些问题中，我们想预测的变量y，可以统一认为它只能取两个值0或1，这种问题叫分类(classification)问题，但只是最简单的二元分类问题，多类的问题待以后学习中讨论。如果我们尝试用线性回归来解决此类问题，碰巧的话，有时可能会解决得好，如图中粉红色线
这里写图片描述
但是如果出现了一个很远的样本点，训练出来的模型可能就变成蓝色线的样子。此时很明显分类的效果就很差。因此，应用线性回归来解决分类问题并不是一个好的想法。此时，我们便需要一种新的模型——logistic回归来解决分类问题。

二、问题分析
对于输出值y∈{0, 1}的两类分类问题，我们作出一个假设：
这里写图片描述

函数g被称为logistic函数或sigmoid函数，至于为什么选择会选择这个函数，以后会涉及这个问题，暂时不深究。这个函数的图像是：

看起来有点像单位阶跃函数。根据这个函数，大于0.5的数据被划入1类，小于0.5的数据被归为0类。
有了这个函数，对于一个样本，我们可以得到它的概率分布：
这里写图片描述
综合起来就是：

此公式便为伯努利分布，这里的y∈{0, 1}.
现在我们就可以把问题转化为求logistic回归的最佳回归系数。由于logistic回归可以被看作是一种概率模型，且输出y发生的概率与回归参数θ有关，因此我们可以对θ进行最大似然估计(Maximum Likelihood Estimate)，使得y发生的概率最大，此时的θ便是最优的回归系数。对整个数据集求似然函数得：
这里写图片描述
为了计算方便，取似然函数的对数函数：

对上式运用梯度上升法，得到θ的迭代式：

求导过程不在此赘述，计算结果为：

最低0.47元/天解锁文章

younger_feiyang_lee

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
【机器学习】Logistic回归的梯度上升法

现实生活中有一种问题，输出值只有两种情况：yes or no.这类问题常见有：电子邮箱中的垃圾邮件分类(spam or not spam)，肿瘤为良性或者恶性等。在这些问题中，我们想预测的变量y，可以统一认为它只能取两个值0或1，这种问题叫分类(classification)问题。
复制链接

扫一扫