判别模型：logistic,GDA,QDA（一）

VIP文章 Distrlili

于 2015-12-06 19:28:29 发布

阅读量9.4k

点赞数 1

分类专栏： data mining R programing 文章标签： QDA Logistic

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/g090909/article/details/50197331

版权

前言准备：
输入变量可称呼为预测变量、自变量、属性变量、解释变量，有时候就称为变量；
输出变量称为：响应变量或因变量。

本篇目的：预测定性响应变量的方法及分类，以及各个分类方法之间的比较。

预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始，将分类问题作为概率估计的一个结果。

分类方法：
逻辑斯蒂回归（logistic regression）
线性判别分析（linear discriminant analysis）
K最近邻(K-nearest neighbor)

（一）逻辑斯蒂回归

适用于二元响应变量，对响应变量Y属于某一类的概率进行回归，而不直接对响应变量Y建模。

例如：Default（违约）数据集，只取两个值yes(违约)或no(不违约)。则逻辑斯蒂回归建立违约概率模型为: $Pr(default=Yes|balance)$ ,值记为 $p(balance)$ [balance为信用卡余额],取值范围在0到1之间。任意给一个balance值，就可以根据这个概率对default预测。

例如：如果某人的p(balance)>0.5，就可以预测这个人的default=Yes.阙值可以根据需要来取值，此处的阙值为0.5，若这家公司希望对预测一个人是否发生违约风险方面持谨慎态度，那么预测模型应选择一个较低的阙值，比如：p(balance)>0.1。

1.逻辑斯蒂模型:

若使用线性回归模型表示这些概率：p(X)=a+bX,用这条直线拟合一个编码为0,1的二元响应变量，总可以找到X使得预测的p(X)<0，而对X的另外一些值P(X)>1（除非X的范围是限定的）。因此找到逻辑斯蒂函数，使得对任意的X值该函数的输出结果都在0和1之间。

模型的建立：

采用对数变换: $P(X)=\frac{e^\left(a+bx\right)}{1+e^\left(a+bx\right)}$ ，该函数即为逻辑斯蒂函数，产生S形的曲线，取值在0—1之间。

称 $P(x)/(1-p(x))$ 为发生比，取值范围为0到inf。其值接近于0,表示违约概率非常低，其值接近于inf表示违约的概率非常高。

$log（P(x)/(1-p(x))）$ 为对数发生比log-odd或分对数logit，因此逻辑斯蒂回归模型可以视为分对数变换下关于X的一个线性模型。

参数解释：b表示X每增加一个单位，对数发生比的变化为b或发生比的变化要乘以exp(b)。
在逻辑斯蒂函数中，p(X)与X的关系并不是线性的，P(X)随X增加一个单位的改变量取决于X的当前值，但是如果不考虑X的取值，若b值是正的，P(X)随X的增加而增加；若b值是负的，P(X)随X的增加而减小。

模型的回归系数估计：
估计回归系数：在线性回归模型中，用最小二乘法估计线性模型中的未知系数；虽然也可以用（非线性）最小二乘拟合模型，但由于极大似然有更好的统计性质，如一致最小无偏估计性质，所以此处采用极大似然方法估计系数。

极大似然法拟合逻辑斯蒂回归模型的基本思想：寻找a,b的一个估计，使得由逻辑斯蒂函数得到的每个人的违约预测概率P(xi)的估计值最大可能的与违约的观测情况接近。换句话说，求出的a,b的估计值，带入逻辑斯蒂函数中，使得所有违约人的概率值接近于1，而未违约人的概率值接近于0。

表达为数学方程的似然函数（likelihood function ）,形式如下：

估计的结果在下面的案例中展现，主要通过R软件中glm()函数（广义线性模型函数）

多元逻辑斯蒂回归
与一元情况类似，只是预测变量

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
判别模型：logistic,GDA,QDA（一）

前言准备：输入变量可称呼为预测变量、自变量、属性变量、解释变量，有时候就称为变量；输出变量称为：响应变量或因变量。本篇目的：预测定性响应变量的方法及分类，预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始，将分类问题作为概率估计的一个结果。分类方法：逻辑斯蒂回归（logistic regre
复制链接

扫一扫

专栏目录

Distrlili CSDN认证博客专家 CSDN认证企业博客

码龄12年

96: 原创

5万+: 周排名

34万+: 总排名

46万+: 访问

: 等级

4610: 积分

91: 粉丝

145: 获赞

25: 评论

632: 收藏

私信

关注

热门文章

分类专栏

R programing 34篇
data mining 15篇
data cleaning 11篇
visualization in r 9篇
My SQL 21篇
my life 4篇
SAS 2篇
R——常见问题 7篇
excel 2篇
分析案例 2篇
Python 10篇
HIve 4篇

最新评论

excel数据分析案例
hyyyyy1: 跪求数据源，万分感谢！邮箱：[email protected]
离散变量的重编码
mingmingbaoxin: 会报出：SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead
R read.table()报错：incomplete final line found by readTableHeader
weixin_57200762: 能回答清楚点吗？是在要读取的文件里面换行还是在R环境里面？
将Chrome设置为Jupyter_notebook的默认浏览器
Ooooo�: 没有作用
diff()差分
小雲啊: 请问时序数据，diff（）差分有什么作用呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。