统计学习导论之读书笔记(三):分类
1 分类问题概述
分类模型(classifier)是一种用来预测定性响应变量的方法。我们将讨论三种应用最广泛的分类方法:洛吉斯蒂回归(logistic regression)、线性判别分析(linear discriminant analysis, LDA)和K最近邻(KNN)
2 为什么线性回归不可用
线性回归在预测定性响应变量下是不可用的,原因:通常我们不能将一个定性的响应变量自然地转化为两水平以上地定量变量来建立线性回归模型。(这样做实际会默认一个有序地输出)。
对一个二元响应变量,最小二乘回归是有意义的。但它的估计值很可能在[0,1]之外,这个数值难以被当作概率来解释。(注意线性回归产生的估计实际上是 P r ( Y = Y j ∣ X ) Pr(Y=Y_{j}|X) Pr(Y=Yj∣X)的估计)。
3 逻辑斯谛回归(二分类问题)
我们通常会更关心Y属于某一类的概率,逻辑斯谛回归是对 Y Y Y属于某一类的概率建模而不直接对响应变量 Y Y Y建模。
3.1逻辑斯谛模型
逻辑斯谛函数为:
p ( X ) = ϵ β 0 + β 1 X 1 + ϵ β 0 + β 1 X   \ p(X) = \frac{\epsilon^{\beta_{0}+\beta_{1}X}}{1+\epsilon^{\beta_{0}+\beta_{1}X}}\, p(X)=1+ϵβ0+β1Xϵβ0+β1X
对上述两边取对数,可以得到:
l o g ( p ( X ) 1 − p ( X ) ) = β 0 + β 1 X   \ log(\frac{p(X)}{1-p(X)})= \beta_{0}+\beta_{1}X\, log(1−p(X)p(X))=β0+β1X
所以,上式左边称为对数发生比(log-odd)或分对数(logit),逻辑斯谛回归模型可以视为分对数变换下关于 X X X的一个线性模型。
3.2 估计回归系数
估计回归系数使用的方法是:极大似然估计,即最大化似然函数:
l ( β 0 , β 1 ) = ∏ i : y i = 1 p