目录-按照顺序阅读即可
逻辑斯特回归之基础
从线性回归到逻辑斯特回归
让我们思考一个实际的分类问题:
通过学生的学习时间,估计他期末考试是否能够及格。
那么,我们是否可以通过在[机器学习-1.1]线性回归之基础中描述的方法来实现这个分类问题呢?
让我们先看这样一张图:
横坐标表示学习时间,纵坐标表示及格与否。1代表及格,0代表不及格。
0.5为界限,也就是说,输入一个学生的学习时间给分类器,分类器就是一个函数,函数输出一个数,大于阈值0.5,判定为及格,小于0.5判定为不及格。
蓝点代表不及格学生数据,水红点代表及格学生数据。安装线性回归的算法,得到分类函数为黄色线,我们可以明显看见,分类器很好的分出了,及格学生和不及格学生。
但是,当我们加入右上角的新数据时候,再次利用线性回归算法得到分类函数,为红色线,这个时候就会出现分类出错的情况。
之所以会出现分类出错的情况,是因为,线性回归对异常值敏感,算法为了照顾这些异常点,会使得分类不符合实际情况。
为此,我们需要引入一种模型,更加符合这种给定 x x x和 θ \theta θ得到输出变量 y y y服从贝努利分布(0-1分布,二项分布)的分类问题。
以上是直觉理解分析,以下通过理论分析得到我们需要的逻辑斯特回归模型。
这种已知x预测y的问题,可以通过构建广义线性模型(GLM)来解决,GLM由三大假设,也就是说,让上述的二分类问题遵循GLM,就可以达成预测模型的构建。
- y ∣ x ; θ y|x;\theta y∣x;θ 服从一个参数为 η \eta η的指数族分布
- 给定x,预测y的期望值,即得到 h ( x ) = E ( y ∣ x ) h(x) =\Epsilon (y|x) h(x)=E(y∣x)
- 假设参数 η \eta η和输入变量 x x x是线性关系,也就有 η = θ T x \eta ={ \theta }^{ T }x η=θTx
首先第一步,让 p ( y ∣ θ ) p(y|\theta ) p(y∣θ)服从指数族分布。
指数族分布满足如下概率密度函数:
p ( y ; η ) = b ( y ) e ( η T ( y ) − a ( η ) ) p(y;\eta )=b(y){ e }^{ (\eta T(y)-a(\eta )) } p(y;η)=b(y)e(ηT(y)−a(η))
其中, η \eta η是自然参数, T ( y ) T(y) T(y)是充分统计量, a ( η ) a(\eta) a(η)为正则化项。
通常 T ( y ) = 1 T(y)=1 T(y)=1。
在上述的二分类问题中,输出变量服从二项分布:
p ( y ; θ ) = ϕ y ( 1 − ϕ ) ( 1 − y ) p(y;\theta )={ \phi }^{ y }{ (1-\phi ) }^{ (1-y) } p(y;θ)=ϕy(1−ϕ)(1−y)
将其转化为指数族分布的形式:
p ( y ; θ ) = e ( ( l o g ( ϕ 1 − ϕ ) ) y + l o g ( 1 − ϕ ) ) p(y;\theta )={ e }^{ ((log(\frac { \phi }{ 1-\phi } ))y+log(1-\phi )) } p(y;<