logit回归模型_广义线性模型与R实现

1、线性模型

假设Y是正态分布,Y的条件均值是β的线性函数

2、指数分布族

假定Yi来自指数分布族,常见的正态分布、二项分布、泊松分布、伽马分布都是指数分布族

指数分布族的概率密度:

f90bd045eacc7bb6386607493592dea5.png

注:泊松分布和二项分布的φ=1

3、均值函数的扩展

为连接函数,一对一连续可导函数

,由于连接函数为一对一,因此

7e16fbdd2dadc7367df884dcdcd103c3.png

4、GLM的参数估计

4.1 极大似然估计

没有解析解,主要算法有牛顿迭代和fisher得分法,具体可参考链接

https://blog.csdn.net/sun_xiao_kai/article/details/87980907

对数似然函数

4.2 加权最小二乘

普通线性模型的目标函数

,y同方差

广义线性模型的目标函数

,g(y)不是同方差的

工作因变量(泰勒展开)

迭代权数:

344ca7607f9db0f6985162d48179206a.png
第4次就迭代稳定了

b61845e54aae940102e5ffc859c99065.png

5、GLM的假设检验

5.1 Wald检验

估计量的期望和方差:

---delta方法

https://bayes-stat.github.io/download/largescale/delta.pdf

5.2 似然比检验

b9fb6ca00e8d7b8b05ca0c66be6e7bad.png

1、二分类数据回归

1.1 logit回归

连接函数:

均值函数:

边际效应:

补充:logit模型和logistic模型的区别

  1. logit模型的右侧是对数优势比Odds,左侧是线性模型;
  2. logistic模型的右侧是概率,左侧是非线性模型。

1.2 probit回归

连接函数:

均值函数:

边际效应:

2、过度散布问题(难)

原因:总体异质性

二项分布的总体参数不一致

01357c24062ff0d370151a0c51d8ba17.png

待补充,俺还没理解

3、多分类数据回归

3.1 多项logit--以个体特征为协变量

(multinomial logit model,MNL)

连接函数:

b08ca538b54bd0c9e805e25718bd729e.png
#案例:响应变量为工作满意情况4类,自变量为收入(暂不考虑满意度的顺序)
library

5731bb4383c65dd4a773c36494f7da48.png

c2a222807e90df59c86227f781a5e9cf.png

模型结果解读:

8d077e966316ed4cb54440ac9db03073.png
收入每增加1k,优势比增加/缩减为原来的e^β倍

3.2 条件logit--以选项特征为协变量

连接函数:

3.3 混合模型

连接函数:

4、有序分类数据回归

记个体i为第j类的概率为:

个体i落在前j类的累积概率为:

累积连接函数:

4.1 有序logit

平行性假定:

c220df7163b2e43cf740f2d1a30e26c1.png

说明:收入每增加1k,非常满意与(非常不满意、不满意、一般)的优势比缩减为原来的e^-0.04486=0.96倍;一般与(非常不满意、不满意)的优势比缩减为原来odds的0.96倍;不满意与非常不满意的优势比缩减为原来odds的0.96倍.

如果将顺序颠倒过来,则非常不满意与(不满意、一般、非常满意)的优势比增加为原来的1/0.96=1.046倍;同理。

4.2 有序probit

45f69cbfba82444bdff434735f920740.png

代码链接(lcj5):

https://pan.baidu.com/s/1hIQRlFwxRQ6cU5q1oC8FvA​pan.baidu.com

精力和理解能力有限,还有嵌套logit等模型没有介绍~

下次学习了再更新。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:数字20 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值