1、线性模型
假设Y是正态分布,Y的条件均值是β的线性函数
2、指数分布族
假定Yi来自指数分布族,常见的正态分布、二项分布、泊松分布、伽马分布都是指数分布族
指数分布族的概率密度:
![f90bd045eacc7bb6386607493592dea5.png](https://i-blog.csdnimg.cn/blog_migrate/93010a632287316b8dec4edc5060312c.jpeg)
注:泊松分布和二项分布的φ=1
3、均值函数的扩展
![7e16fbdd2dadc7367df884dcdcd103c3.png](https://i-blog.csdnimg.cn/blog_migrate/99e1c1b31c08a179221aaca080e4261a.png)
4、GLM的参数估计
4.1 极大似然估计
没有解析解,主要算法有牛顿迭代和fisher得分法,具体可参考链接
https://blog.csdn.net/sun_xiao_kai/article/details/87980907
对数似然函数
4.2 加权最小二乘
普通线性模型的目标函数
广义线性模型的目标函数
工作因变量(泰勒展开):
迭代权数:
![344ca7607f9db0f6985162d48179206a.png](https://i-blog.csdnimg.cn/blog_migrate/18819981ef2abf05fb3b695fbbbde285.jpeg)
![b61845e54aae940102e5ffc859c99065.png](https://i-blog.csdnimg.cn/blog_migrate/c2051366012d1d17181a93f3867bd71d.jpeg)
5、GLM的假设检验
5.1 Wald检验
估计量的期望和方差:
---delta方法
https://bayes-stat.github.io/download/largescale/delta.pdf
5.2 似然比检验
![b9fb6ca00e8d7b8b05ca0c66be6e7bad.png](https://i-blog.csdnimg.cn/blog_migrate/69efab681a9ad028394d29dd0645d7ca.png)
1、二分类数据回归
1.1 logit回归
连接函数:
均值函数:
边际效应:
补充:logit模型和logistic模型的区别
- logit模型的右侧是对数优势比Odds,左侧是线性模型;
- logistic模型的右侧是概率,左侧是非线性模型。
1.2 probit回归
连接函数:
均值函数:
边际效应:
2、过度散布问题(难)
原因:总体异质性
二项分布的总体参数不一致
![01357c24062ff0d370151a0c51d8ba17.png](https://i-blog.csdnimg.cn/blog_migrate/ec4ff27c5c70a7c563a5bbef27320a00.png)
待补充,俺还没理解
3、多分类数据回归
3.1 多项logit--以个体特征为协变量
(multinomial logit model,MNL)
连接函数:
![b08ca538b54bd0c9e805e25718bd729e.png](https://i-blog.csdnimg.cn/blog_migrate/c9ac5a9d59b4eaa7060b6e46bce75b6f.jpeg)
library
![5731bb4383c65dd4a773c36494f7da48.png](https://i-blog.csdnimg.cn/blog_migrate/1c9dfe31f42a93baa7945d23bbbbacba.png)
![c2a222807e90df59c86227f781a5e9cf.png](https://i-blog.csdnimg.cn/blog_migrate/2adfef4419c3fe21935d682553c12c24.png)
模型结果解读:
![8d077e966316ed4cb54440ac9db03073.png](https://i-blog.csdnimg.cn/blog_migrate/369f7616bca84934bc28f7012508cb0f.png)
3.2 条件logit--以选项特征为协变量
连接函数:
3.3 混合模型
连接函数:
4、有序分类数据回归
记个体i为第j类的概率为:
个体i落在前j类的累积概率为:
累积连接函数:
4.1 有序logit
平行性假定:
![c220df7163b2e43cf740f2d1a30e26c1.png](https://i-blog.csdnimg.cn/blog_migrate/e022ff4c3322b06a46889405424d636b.jpeg)
说明:收入每增加1k,非常满意与(非常不满意、不满意、一般)的优势比缩减为原来的e^-0.04486=0.96倍;一般与(非常不满意、不满意)的优势比缩减为原来odds的0.96倍;不满意与非常不满意的优势比缩减为原来odds的0.96倍.
如果将顺序颠倒过来,则非常不满意与(不满意、一般、非常满意)的优势比增加为原来的1/0.96=1.046倍;同理。
4.2 有序probit
![45f69cbfba82444bdff434735f920740.png](https://i-blog.csdnimg.cn/blog_migrate/034b70f3a45fcd16d1107610ab3367a0.jpeg)
代码链接(lcj5):
https://pan.baidu.com/s/1hIQRlFwxRQ6cU5q1oC8FvApan.baidu.com精力和理解能力有限,还有嵌套logit等模型没有介绍~
下次学习了再更新。。。