[机器学习-2.1]逻辑斯特回归之基础

最新推荐文章于 2023-05-10 20:56:58 发布

melon_x

最新推荐文章于 2023-05-10 20:56:58 发布

阅读量203

点赞数

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/melon_x/article/details/88367686

版权

本文探讨了从线性回归过渡到逻辑斯特回归的原因，主要针对分类问题，特别是二分类问题。通过引入指数族分布和最大似然估计，解释了逻辑斯特回归模型的构建，并展示了如何使用梯度上升法求解参数。讨论了线性回归在处理异常值时的不足，而逻辑斯特回归更适合处理此类问题。

摘要由CSDN通过智能技术生成

目录-按照顺序阅读即可

逻辑斯特回归之基础

逻辑斯特回归之基础

从线性回归到逻辑斯特回归

让我们思考一个实际的分类问题：
通过学生的学习时间，估计他期末考试是否能够及格。
那么，我们是否可以通过在[机器学习-1.1]线性回归之基础中描述的方法来实现这个分类问题呢？
让我们先看这样一张图：
在这里插入图片描述
横坐标表示学习时间，纵坐标表示及格与否。1代表及格，0代表不及格。
0.5为界限，也就是说，输入一个学生的学习时间给分类器，分类器就是一个函数，函数输出一个数，大于阈值0.5，判定为及格，小于0.5判定为不及格。
蓝点代表不及格学生数据，水红点代表及格学生数据。安装线性回归的算法，得到分类函数为黄色线，我们可以明显看见，分类器很好的分出了，及格学生和不及格学生。
但是，当我们加入右上角的新数据时候，再次利用线性回归算法得到分类函数，为红色线，这个时候就会出现分类出错的情况。
之所以会出现分类出错的情况，是因为，线性回归对异常值敏感，算法为了照顾这些异常点，会使得分类不符合实际情况。
为此，我们需要引入一种模型，更加符合这种给定 $x$ 和 $\theta$ 得到输出变量 $y$ 服从贝努利分布（0-1分布，二项分布）的分类问题。
以上是直觉理解分析，以下通过理论分析得到我们需要的逻辑斯特回归模型。
这种已知x预测y的问题，可以通过构建广义线性模型（GLM）来解决，GLM由三大假设，也就是说，让上述的二分类问题遵循GLM，就可以达成预测模型的构建。

$y|x;\theta$ 服从一个参数为 $\eta$ 的指数族分布
给定x,预测y的期望值，即得到 $=\Epsilon (y|x)$
假设参数 $\eta$ 和输入变量 $x$ 是线性关系，也就有 $\eta ={ \theta }^{ T }x$

首先第一步，让 $p(y|\theta )$ 服从指数族分布。
指数族分布满足如下概率密度函数：
$p(y;\eta )=b(y){ e }^{ (\eta T(y)-a(\eta )) }$
其中， $\eta$ 是自然参数， $T (y)$ 是充分统计量， $a(\eta)$ 为正则化项。
通常 $T (y) = 1$ 。
在上述的二分类问题中，输出变量服从二项分布：
$p(y;\theta )={ \phi }^{ y }{ (1-\phi ) }^{ (1-y) }$
将其转化为指数族分布的形式：
$p(y;\theta )={ e }^{ ((log(\frac { \phi }{ 1-\phi } ))y+log(1-\phi )) }$