机器学习之梯度下降法（机器学习基石）

最新推荐文章于 2024-03-17 21:07:01 发布

Elong_Hu

最新推荐文章于 2024-03-17 21:07:01 发布

阅读量1.5k

点赞数

分类专栏：机器学习 Machine Learning 数据科学家之路文章标签： Logistic Regresssion 逻辑回归罗吉斯回归机器学习机器学习之Logistic Regression

本文链接：https://blog.csdn.net/qq_34993631/article/details/79267606

版权

数据科学家之路同时被 3 个专栏收录

50 篇文章 6 订阅

订阅专栏

机器学习

38 篇文章 5 订阅

订阅专栏

Machine Learning

35 篇文章 4 订阅

订阅专栏

从二元分类到罗吉斯回归

在预测一个病人的患病情况的时候如果我们单纯的想预测下一个病人是否患病那么就会用到二元分类。但是如果我们现在预测某个病人患病的概率是多大的话显然二元分类就满足不了我们的要求于是就诞生了Logistic Regression。

Logistic Regression的假设模型

我们现在拥有的资料并不是我们所预期的类似于（某个病人，患病的概率）这样的资料，我们拥有的是（某个病人，是否患病）这样的资料。我们会发现后者可以当做前者的有杂讯的版本（比如说前者是0.2后者给的是0，前者是0.8后者是1），这样我们可以使用相同的资料做不同的事情。

我们知道无论在二元分类中还是在线性回归中我们首先要计算一个得分函数，而在Logistic Regression中也有相同的步骤。不同的是在算出得分函数之后需要将结果投射到一个S型函数上（Sigmoid函数），函数图如下：

如上图所示S为我们的得分函数，以它为横坐标投射到右面的函数上我们就会得到一个从0到1的函数从而也就产生了一个0~1的概率值。具体来说Sigmoid函数θ与其性质如下：

假设模型h(x)的引出

首先我们明确如果一个人患病的概率是0.6那么不患病的概率就是0.4推广到更加一般的情况（设f(x)为我们的目标函数同时也是患病的概率）如下图所示：

假设现在有一笔资料（包括标签的）那么产生这笔资料的概率有多大？

单个资料来讲，产生这个资料并且患病的概率为P(x)P(o|x)（此处o代表患病）而其中的P(o|x)正是我们的目标函数在此处的预测概率，所以它可以替换为f(x)单笔资料的患病概率变成了P(x)f(x)，那么产生这样一笔带有不同标签的样本产生的的概率就是单个资料（是否患病的概率）相乘的结果。

我们的目标是要得出逼近于f(x)的一个函数，我们现在知道了在f(x)的情况下产生一个我们看到的样本的概率是很大的（因为有杂讯的存在所以不能是完全产生）。现在我们换一个思路想如果我们的假设模型h(x)也能在很大的几率上产生这笔资料我们就说这时的h(x)≈f(x)。现在我们就是要找到能最大可能性产生该样本的h(x)。h(x)在这里起到一个参数的作用，我们的估计方法在统计学上称之为极大似然估计。

现在我们的目的就是用h(x)表示出样本发生的概率来然后使其最大化之后求出h(x)的表达式。由于Sigmoid函数的性质我们会发现1-h(x) = h(x)。