逻辑回归——牛顿法矩阵实现方式

最新推荐文章于 2024-09-13 18:21:30 发布

weixin_30326745

最新推荐文章于 2024-09-13 18:21:30 发布

阅读量759

点赞数 1

文章标签：数据结构与算法人工智能 python

原文链接：http://www.cnblogs.com/f-young/p/8100127.html

版权

本文深入探讨了逻辑回归的原理，包括条件概率、似然函数和逻辑回归模型的构建。通过牛顿法求解逻辑回归的参数，并介绍了多分类逻辑回归。详细阐述了牛顿迭代公式及其在求解过程中的应用。

摘要由CSDN通过智能技术生成

引言

逻辑回归常用来处理分类问题，最常用来处理二分类问题。

生活中经常遇到具有两种结果的情况（冬天的北京会下雪，或者不会下雪；暗恋的对象也喜欢我，或者不喜欢我；今年的期末考试会挂科，或者不会挂科……）。对于这些二分类结果，我们通常会有一些输入变量，或者是连续性，或者是离散型。那么，我们怎样来对这些数据建立模型并且进行分析呢？

我们可以尝试构建一种规则来根据输入变量猜测二分输出变量，这在统计机器学上被称为分类。然而，简单的给一个回答“是”或者“不是”显得太过粗鲁，尤其是当我们没有完美的规则的时候。总之呢，我们不希望给出的结果就是武断的“是”或“否”，我们希望能有一个概率来表示我们的结果。

一个很好的想法就是，在给定输入\(X\)的情况下，我们能够知道Y的条件概率\(Pr(Y|X)\)。一旦给出了这个概率，我们就能够知道我们预测结果的准确性。

让我们把其中一个类称为1，另一个类称为0。（具体哪一个是1，哪一个是0都无所谓）。\(Y\)变成了一个指示变量，现在，你要让自己相信，\(Pr(Y=1)=EY\)，类似的，\(Pr(Y=1|X=x)=E[Y|X=x]\)。

假设\(Y\)有10个观测值，分别为 0 0 0 1 1 0 1 0 0 1.即6个0,4个1.那么，\(Pr(Y=1)=\frac{count(1)}{count(n)}=\frac{4}{10}=0.4\)，同时，\(EY=\frac{sum(Y)}{count(n)}=\frac{4}{10}=0.4\)

换句话说，条件概率是就是指示变量（即\(Y\))的条件期望。这对我们有帮助，因为从这个角度上，我们知道所有关于条件期望的估计。我们要做的最直接的事情是挑选出我们喜欢的平滑器，并估计指示变量的回归函数，这就是条件概率函数的估计。

有两个理由让我们放弃陷入上述想法。

概率必须介于0和1之间，但是我们在上面估计出来的平滑函数的输出结果却不能保证如此，即使我们的指示变量\(y_i\)不是0就是1；
另一种情况是，我们可以更好地利用这个事实，即我们试图通过更显式地模拟概率来估计概率。

假设\(Pr(Y=1|X=x)=p(x;\theta)\),\(p\)是参数为\(\theta\)的函数。进一步，假设我们的所有观测都是相互独立的，那么条件似然函数可以写成：

\[\prod _{i=1}^nPr(Y=y_i|X=x_i)=\prod _{i=1}^np(x_i;\theta)^{y_i}(1-p(x_i;\theta))^{1-y_i}\]

回忆一下，对于一系列的伯努利试验\(y_1,y_2,\cdots,y_n\)，如果成功的概率都是常数\(p\)，那么似然概率为：

\[\prod _{i=1}^n p^{y_i}(1-p)^{1-y_i}\]

我们知道，当\(p=\hat{p}=\frac{1}{n}\sum _{i=1}^ny_i\)时，似然概率取得最大值。如果每一个试验都有对应的成功概率\(p_i\)，那么似然概率就变成了

\[\prod _{i=1}^n p_i^{y_i}(1-p_i)^{1-y_i}\]

不添加任何约束的通过最大化似然函数来估计上述模型是没有意义的。当\(\hat{p_i}=1\)的时候，\(y_i=1\)，当\(\hat{p_i}=0\)的时候，

最低0.47元/天解锁文章

weixin_30326745

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫