统计学习导论之读书笔记(三):分类(Classification)

本文介绍了分类问题中的逻辑斯谛回归和线性判别分析。逻辑斯谛回归关注二分类问题,通过对数几率转换实现概率建模;而线性判别分析适用于多分类,尤其在响应变量近似正态分布时表现稳定。文章对比了两种方法的适用场景,并探讨了R语言的实现方式。
摘要由CSDN通过智能技术生成

1 分类问题概述

分类模型(classifier)是一种用来预测定性响应变量的方法。我们将讨论三种应用最广泛的分类方法:洛吉斯蒂回归(logistic regression)线性判别分析(linear discriminant analysis, LDA)K最近邻(KNN)

2 为什么线性回归不可用

线性回归在预测定性响应变量下是不可用的,原因:通常我们不能将一个定性的响应变量自然地转化为两水平以上地定量变量来建立线性回归模型。(这样做实际会默认一个有序地输出)。

对一个二元响应变量,最小二乘回归是有意义的。但它的估计值很可能在[0,1]之外,这个数值难以被当作概率来解释。(注意线性回归产生的估计实际上是 P r ( Y = Y j ∣ X ) Pr(Y=Y_{j}|X) Pr(Y=YjX)的估计)。

3 逻辑斯谛回归(二分类问题)

我们通常会更关心Y属于某一类的概率,逻辑斯谛回归是对 Y Y Y属于某一类的概率建模而不直接对响应变量 Y Y Y建模。

3.1逻辑斯谛模型

逻辑斯谛函数为:

  p ( X ) = ϵ β 0 + β 1 X 1 + ϵ β 0 + β 1 X   \ p(X) = \frac{\epsilon^{\beta_{0}+\beta_{1}X}}{1+\epsilon^{\beta_{0}+\beta_{1}X}}\,  p(X)=1+ϵβ0+β1Xϵβ0+β1X

对上述两边取对数,可以得到:

  l o g ( p ( X ) 1 − p ( X ) ) = β 0 + β 1 X   \ log(\frac{p(X)}{1-p(X)})= \beta_{0}+\beta_{1}X\,  log(1p(X)p(X))=β0+β1X

所以,上式左边称为对数发生比(log-odd)或分对数(logit),逻辑斯谛回归模型可以视为分对数变换下关于 X X X的一个线性模型。

3.2 估计回归系数

估计回归系数使用的方法是:极大似然估计,即最大化似然函数:

  l ( β 0 , β 1 ) = ∏ i : y i = 1 p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值