机器学习中的Logistics逻辑回归分析

最新推荐文章于 2024-05-28 15:43:25 发布

沙漠之狐MSFollower

最新推荐文章于 2024-05-28 15:43:25 发布

阅读量1k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/78287598

版权

机器学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

逻辑回归(Logistic Regression, LR)又称为逻辑回归分析，是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。

<一>我们首先讨论二分类的情况：

设有线性拟合方法(这里 $\dpi{100} x=(x^{1},x^{2},...,x^{n})$ 为样本x的向量化表示)：

$wx=w^{0}+w^{1}x^{1}+w^{2}x^{2}+...+w^{n}x^{n}$

设样本发生的概率为P(Y=1|x)，样本不发生的概率为P(Y=0|x)：

$P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}=\pi (x)$

$P(Y=0|x)=1-\frac{e^{wx}}{1+e^{wx}}=\frac{1}{1+e^{wx}}=1-\pi (x)$

一个事件x的几率 Odd，指的是该事件发生的概率与不发生概率的比值。则这里事件的对数几率为:

$log[Odd(x)]=log(\frac{P(Y=1|x)}{P(Y=0|x)})=log(\frac{\pi(x)}{1-\pi(x)})=log(e^{wx})=wx$

可以看出，在逻辑斯蒂回归中，输出Y=1的对数几率是输入x的线性函数。

我们用极大似然估计法估计模型参数，从而得到逻辑回归模型。似然函数为：
$\prod_{i=1}^{N}[\pi(x_{i})^{y_{i}}][1-\pi(x_{i})]^{1-y_{i}}$

N表示样本的数量。对似然函数进行对数化，得到便于计算的公式：

$L(w)=\sum_{j=1}^{N}[y_{j}log\pi(x_{j})+(1-y_{j})log(1-\pi(x_{j}))]\\ \indent\quad\quad=\sum_{j=1}^{N}[y_{j}log\frac{\pi(x_{j})}{1-\pi(x_{j})}+log(1-\pi(x_{j}))]\\ \indent\quad\quad=\sum_{j=1}^{N}[y_{j}wx_{j}-log(1+e^{wx_{j}})]$

要使所有训练样本的预测值与实际值之间的误差之和最小(这里使得L(w)最大化)。使用梯度下降法，在经过若干次迭代之后，误差趋于收敛。这样，最终学习到参数w。得到w之后，可以来计算预测样本在两个类P(Y=1|x)和P(Y=0|x)上的概率。当样本在其中一个类上的概率大于在另一个类上的概率时（或在某个类上的概率大于0.5时），则该样本属于概率较大的类。

<二>接下来我们考虑多分类的情况：

多分类实际上可以分解为多个二分类，即不断进行二分类。当有K个分类时，我们需要学习到K-1个权值参数。遵循和<一>中二分类一样的形式。具体为：

$P(Y=k|x)=\frac{e^{w_{k}x}}{1+\sum_{k=1}^{K-1}e^{w_{k}x}}$

$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w_{k}x}}$

这里，P(Y=k|x)表示样本x为第k类时的预测概率，相应的参数 $w_{k}$ 为第k类的权值参数。

根据<一>，计算第k类别的对数似然函数：

$L(w_{k})=\sum_{j=1}^{N}(y_{j}w_{k}x_{j}-log(1+e^{w_{k}x_{j}}))$

训练时，如果样本x属于第k类，则P(Y=k|x)=1，否则P(Y=k|x)=0。使 $L(w_{k})$ 最大化，这样学到第k分类的参数 $w_{k}$ 。依据这种方法，最终学到K-1个类的权值参数 $w_{1},w_{2},w_{3}...w_{K-1}$ 。输入某样本x，当第k类的预测概率最大时，则判断该样本属于第k类。

Logistic回归有自身的优缺点:
优点：计算代价不高，易于理解和实现
缺点：容易欠拟合，分类精度可能不高
适用数据类型：数值型和标称型

参考文献：

http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/

http://blog.csdn.net/armavrdsp/article/details/21614515

http://bluewhale.cc/2016-05-18/logistic-regression.html

沙漠之狐MSFollower

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。