机器学习之Logistic回归与Python实现

最新推荐文章于 2024-08-14 17:14:53 发布

moxigandashu

最新推荐文章于 2024-08-14 17:14:53 发布

阅读量1.7w

点赞数 11

分类专栏：数据分析 Python 机器学习文章标签：机器学习 logistic回归 python 梯度上升分类算法

本文链接：https://blog.csdn.net/moxigandashu/article/details/72779856

版权

本文详细介绍了Logistic回归，包括分类函数、Cost函数及梯度上升法求解最佳回归系数。通过Python实现Logistic回归算法，并探讨了算法的改进方法，如随机梯度上升法。同时，通过实例展示了Logistic回归在预测马的死亡率问题上的应用。

摘要由CSDN通过智能技术生成

logistic回归是一种广义的线性回归，通过构造回归函数，利用机器学习来实现分类或者预测。

一 Logistic回归概述

Logistic回归的主要思想是，根据现有的数据对分类边界建立回归公式，从而实现分类（一般两类）。“回归”的意思就是要找到最佳拟合参数，其中涉及的数学原理和步骤如下：
（1）需要一个合适的分类函数来实现分类【单位阶跃函数、Sigmoid函数】
（2）损失函数（Cost函数）来表示预测值（ $h(x)$ ）与实际值( $y$ )的偏差( $h-y$ ),要使得回归最佳拟合，那么偏差要尽可能小（偏差求和或取均值）。
（3）记 $J(\omega)$ 表示回归系数为 $\omega$ 时的偏差，那么求最佳回归参数 $\omega$ 就转换成了求 $J(\omega)$ 的最小值。【梯度下降法】
所以，接下来就围绕这几个步骤进行展开。

1.1 分类函数

假设要实现二分类，那么可以找一个函数，根据不同的特征变量，输出0和1，并且只输出0和1，这种函数在某个点直接从0跳跃到1，如：
单位阶跃函数
但是这种函数处理起来，稍微有点麻烦，我们选择另外一个连续可导的函数，也就是 $Sigmoid函数$ ,函数的公式如下：

$h (z) = 1 1 + e - z$ $h(z)=\frac{1}{1+e^{-z}}$
这个函数的特点是，当 $x=0$ 时， $h(x)=0.5$ ，而 $x$ 越大， $h(x)$ 越接近1， $x$ 越小， $h(x)$ 越接近0。函数图如下：

这个函数很像阶跃函数，当x>0，就可以将数据分入1类；当x<0，就可以将数据分入0类。

确定了分类函数，接下来，我们将Sigmoid函数的输入记为z，那么

z = w 0 x 0 + w 1 x 1 + w 2 x 2 + . . . + w n x n = w T x

$z=w_0x_0+w_1x_1+w_2x_2+...+w_nx_n=w^Tx$

向量x是特征变量，是输入数据，向量w是回归系数向量 x 是特征变量，是输入数据，向量 w 是回归系数 $向量x是特征变量，是输入数据，向量w是回归系数$ 是特征
之后的事情就是如何确定最佳回归系数

ω(w0,w1,w2,...,wn) ω ( w 0 , w 1 , w 2 , . . . , w n ) $\omega(w_0,w_1,w_2,...,w_n)$

1.2 Cost函数

现有
输入特征变量： $z=w_0x_0+w_1x_1+w_2x_2+...+w_nx_n=w^Tx$
分类函数： $h(z)=\frac{1}{1+e^{-z}}$
因此预测函数： $h(z)=h_w(x)=\frac{1}{1+e^{-w^Tx}}$
对于任意确定的 $x和w$ ,有：
$P(y=1|x,w)=h_w(x)$
$P(y=0|x,w)=1-h_w(x)$
这个函数可以写成：