【机器学习】Logistic Regression逻辑回归原理与java实现

最新推荐文章于 2024-07-16 21:43:08 发布

Luqiang_Shi

最新推荐文章于 2024-07-16 21:43:08 发布

阅读量3.3k

点赞数 4

分类专栏：机器学习人工智能 java 文章标签：逻辑回归 Logistic Regression Java

本文链接：https://blog.csdn.net/luqiang_shi/article/details/86440197

版权

本文详细介绍了逻辑回归算法，从分离超平面、Sigmoid函数、样本概率到损失函数，阐述了其工作原理。同时，文章还提供了基于梯度下降法的Java实现，帮助读者深入理解并应用Logistic Regression。

摘要由CSDN通过智能技术生成

1、基于概率的机器学习算法

机器学习算法可以分为基于概率、基于距离、基于树和基于神经网络四类。基于概率的机器学习算法本质上是计算每个样本属于对应类别的概率，然后利用极大似然估计法对模型进行训练。基于概率的机器学习算法的损失函数为负的log似然函数。
基于概率的机器学习算法包括朴素贝叶斯算法、Logistic Regression算法、Softmax Regression算法和Factorization Machine算法等。

2、逻辑回归算法原理

2.1、分离超平面

Logistic Regression算法是二分类线性分类算法，分离超平面采用线性函数：
$W x + b = 0$
$x$ 是样本特征矩阵，特征数为 $m$ ，其中 $W （ 1 * m ）$ 是权重矩阵。通过分类超平面可以将数据分成正负两个类别，类别为正的样本标签标记为1，类别为负的样本标签标记为0。

2.2、阈值函数

通过阈值函数可以将样本到分离超平面的距离映射到不同的类别，Logistic Regression算法中阈值函数采用Sigmoid函数：
$\frac{1}{ {1 + {e^{ - x}}}}$
sigmoid函数的图像如下：
在这里插入图片描述
对于样本 $x$ ，其到分离超平面的几何距离 $D$ 为：
$D = W x + b$

2.3、样本概率

假设样本 $x$ 为正类别，则其概率为：
$p\left( {y = 1\left| {x,W,b} \right.} \right) = \sigma \left( {Wx + b} \right) = \frac{1}{ {1 + {e^{ - \left( {Wx + b} \right)}}}}$
负类别样本的概率：
$p\left( {y = 0\left| {x,W,b} \right.} \right) = 1 - p\left( {y = 1\left| {x,W,b} \right.} \right) = \frac{ { {e^{ - \left( {Wx + b} \right)}}}}{ {1 + {e^{ - \left( {Wx + b} \right)}}}}$

将两种类别合并，属于类别 $y$ 的概率为：
$p\left( {y\left| {x,W,b} \right.} \right) = \sigma {\left( {Wx + b} \right)^y}{\left( {1 - \sigma \left( {Wx + b} \right)} \right)^{1 - y}}$