LogisticRegression 原理学习与理解

最新推荐文章于 2023-12-02 02:34:20 发布

Aliang-SEU

最新推荐文章于 2023-12-02 02:34:20 发布

阅读量814

点赞数

分类专栏：机器学习文章标签：贝叶斯分类极大似然估计 logistic回归 java

本文链接：https://blog.csdn.net/huangzhiliang555/article/details/80721097

版权

本文介绍了LogisticRegression的原理，从贝叶斯决策和最大似然估计出发，通过一个红白球问题解释了极大似然估计的概念。接着讲解了logistic回归作为广义线性模型，如何利用sigmoid函数进行二分类，并通过极大似然估计求解模型参数。最后提到了使用Java实现的logistic回归例子，数据集为鸢尾花iris。

摘要由CSDN通过智能技术生成

最近在实习的时候小组组织了一个机器学习的讲座，说来也很惭愧，作为一个专业为模式识别的研究生，除了调调库，调调参，还真的没有认认真真的深入去研究过机器学习的算法原理。所以趁着这一次的作业机会，好好地推导理解了一下LogisticRegression的原理。

贝叶斯决策与最大似然估计

logistic回归是一种广义线性模型，这类模型因为因变量的不同定义的名称也不一样，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归，其他的还有诸如passion回归，负二项回归等等之类。

logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是通常在实际当中二分类用的比较多，也可能是因为形式比较简单，容易理解吧。
为了说明清楚logistic回归的原理，我们先从一个简单的小例子说起来引入极大似然估计，当然这个例子也是看的网上一个博客的。

原文地址：深入浅出最大似然估计（Maximum Likelihood Estimation）

问题是这样的：在一个袋子里面装着白色和红色两种颜色的球，从袋子里面每次取出一个球然后放回去，这样重复取出10次之后得到的结果是白色球出现了7次，红色球出现了3次。问：随机取出一个球是白色球的概率为多少？

这个问题一看很简单嘛，由样本估计总体，所以白色球的概率为

p (w) = 7 / (7 + 3) = 0.7

$p(w) = 7 / (7 + 3) = 0.7$

的确这个计算结果是正确的，但是它是基于样本对于总体的一个估计得出的，我们有没有办法用理论的方法来显式的表达出同样的结果呢？当然是可以的。这就是极大似然估计（Maximum likelihood estimation, 简称MLE）提出的意义所在了。

极大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。直观的意思就是说通过已知的样本来得出与已有的样本最相似的模型。具体是什么意思呢，先从贝叶斯分类器说起更加好理解。

贝叶斯决策

经典的贝叶斯公式为

p (w | x) = p ( x | w ) \times p ( w ) p ( x )

$p(w | x) = \frac{p(x | w) \times p(w) }{p(x)}$

其中 $p(w)$ 为先验概率，代表的意思是类别 $w$ 分布的概率； $p(x | w)$ 为条件概率，表示在类别 $w$ 中，发生事件 $x$ 的概率；而 $p(w | x)$ 为后验概率，代表的意思是在事件 $x$ 发生的情况下，该事件属于类别 $w$ 的概率。而贝叶斯分类就是在这个后验概率的概念上对样本做出的一个分类判断，当后验概率越大，说明某个事件属于这个类别的可能性越大，那么我们就越有理由将它归于这个类别下。

概率论的概念忘了？没关系，我们来看一个非常直观易懂的例子来说明整个的计算过程。已知：在一个大学当中男生戴眼镜的概率为 $\frac{2}{3}$ ，女生戴眼镜的概率为 $\frac{1}{4}$ ，并且该大学当中男女比例为7:3，问：若你在大学当中遇到一个戴眼镜的童鞋，请问ta为男生或者女生的概率分别为多少？