Logistic Regression原理及Python实现

最新推荐文章于 2024-03-21 10:36:34 发布

nudt_oys

最新推荐文章于 2024-03-21 10:36:34 发布

阅读量1k

点赞数

分类专栏：机器学习 Python 机器学习——从原理到实践文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_26658823/article/details/78965578

版权

1. 问题引入

相信大家都接触过分类问题，尤其是二元分类。例如现在有一些患者（训练集）的身体情况以及是否患有心脏病的数据，要求我们根据这些数据来预测其他患者（测试集）是否患有心脏病。这是比较简单的一个二元分类问题，使用线性分类器或许会取得不错的效果。但在实际生活中，我们感兴趣的往往不是其他患者是否会犯病，而是他犯心脏病的概率是多少。很直观的想法是收集患者犯病的概率，然后利用回归模型进行概率预测。但是我们并不能直接收集到患者犯病的概率，只能知到患者最后到底犯没犯病。也就是说，我们输入的标签是离散的类别型数据，但是期望得到数值型的概率。在机器学习中，这叫做“软性二元分类”（Soft Binary Classification），这类问题与普通的分类问题所要的数据相同，但是会得到不同的目标函数。接下来，我们就介绍一种可以解决“软性二元分类”问题的算法，那就是Logistic Regression（后文译为“对数几率回归）。

2. Logistic Regression

继续我们上面的预测患者是否会犯心脏病的问题。为了最终的预测，我们可以对患者的身体状况 $\mathbf{x} =(x_0,x_1,x_2\cdots,x_d)$ 按照不同的权重打分：

$\sum_{i = 0}^{d} w_i x_i$

然后用对数几率函数 $\theta(s)$ 将分数转化成一个概率估计。对数几率函数的形式为：

$\theta(s) = \frac {e^s} {1 + e^s} = \frac {1} {1 + e^{-s}}$

也就是说，对数几率回归通过 $h(\mathbf{x}) = \frac {1} {1 + \exp(-\mathbf{w}^T\mathbf{x})}$ 来逼近目标函数 $f(\mathbf{x}) = P(+1 | \mathbf{x})$ ，显然有：

$\mathbf{x}) = f(\mathbf{x}) \\ P(y = 0 | \mathbf{x}) = 1 - f(\mathbf{x})$

现在我们要面临的问题是如何对 $\mathbf{w}$ 进行估计。在线性回归模型中，我们可以通过最小化均方误差来估计回归系数。但是在这里，好像并没有什么可以衡量误差的东西，所以我们要另辟蹊径。下面我们使用极大似然估计（Maximum Likelihood Estimation，简称MLE）来估计最优的回归系数，它是根据数据采样来估计概率分布参数的经典方法。

假设现在有一个数据集 $\{ (\mathbf{x}_1, y_1),(\mathbf{x}_2,y_2),\cdots,(\mathbf{x}_N,y_n) \}$

最低0.47元/天解锁文章

nudt_oys

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression原理及Python实现

1. 问题引入相信大家都接触过分类问题，尤其是二元分类。例如现在有一些患者（训练集）的身体情况以及是否患有心脏病的数据，要求我们根据这些数据来预测其他患者（测试集）是否患有心脏病。这是比较简单的一个二元分类问题，使用线性分类器或许会取得不错的效果。但在实际生活中，我们感兴趣的往往不是其他患者是否会犯病，而是他犯心脏病的概率是多少。很直观的想法是收集患者犯病的概率，然后利用回归模型进行概率预测。但是我
复制链接

扫一扫

专栏目录