R语言实战笔记--第十三章 广义线性模型

本文深入探讨了R语言中的广义线性模型,包括Logistic回归和泊松回归。Logistic回归适用于二值响应变量,通过因子转换进行建模,并通过残差分析检查模型适用性。泊松回归则适用于计数数据,文中提到了过度离势问题及其处理。文章还提及了这两种模型的扩展应用,如稳健和多项式Logistic回归、序数Logistic回归以及时间段变化和零膨胀的泊松回归。
摘要由CSDN通过智能技术生成

R语言实战笔记–第十三章 广义线性模型

标签(空格分隔): R语言 广义线性模型 logistic回归 泊松回归


广义线性回归

  我们知道,OLS回归的要求是假设因变量是正态分布(还有独立性、线性及同方差性),但是,我们在使用时,因变量通常会出现二值变量(如是/否、通过/不通过之类)或多分类变量(如优/良/中/差等),又或者为计数变量(如一周的交通事故次数这类非负有限值)。而广义线性回归就是能够解决此类问题的回归。书中只介绍了Logistic回归及泊松回归两个回归的一般方法(像稳健、多项、有序等并未涉及)。
  OLS回归的函数式为: μY=β0+pj=1βjXj ,其中Y呈正态分布, μY 为Y的均值
  广义线性的函数式为: g(μY)=β0+pj=1βjXj ,其中 g(μY) 是条件均值的函数(称为连接函数)
  同OLS回归,广义线性的使用也是由一个函数统领,为glm()函数,它与OLS回归相似,但多了一些参数,最主要的是family参数,它指定了概率分布及相应默认的连接函数,如下表:

分 布 族 默认的连接函数
binomial (link = “logit”)
gaussian (link = “identity”)
gamma (link = “inverse”)
inverse.gaussian (link = “1/mu^2”)
poisson (link = “log”)
quasi (link = “identity”, variance = “constant”)
quasibinomial (link = “logit”)
quasipoisson (link = “log”)

另外,lm模型的部分函数可以用于glm模型,如summary、coefficient/coef、confit等。
  模型的适用性是每个模型必不可少的一个判断,模型的拟合和回归诊断。当评价模型适用性时,可以使用初始响应变量的预测值与残差的图形来进行判断。

plot(predict(glmModel,type=”response”),residuals=(glmModel,type=”deviance”)

  书中提到,对广义线性模型的异常点识别仍然未有统一答案,但可以通过帽子值,学生化残差和Cook距离找出异常大的值,然后通过相互比较来进行判断异常,这是一个方法。代码:

plot(hatvalues(glmModel))
plot(rstudent(glmModel))
plot(cooks.distance(glmModel))
还可以使用car包中的一种方法,在OLM回归的时候也有提到的强影响点
library(car)
influencePlot(glmModel)

  当响应变量(因变量)的值较多的时候,诊断图较为有用,当响应变量只有有限个时,诊断图的功效会降低很多。

Logistic回归

原理

  简单说一下它的公式:

logit(P)=ln(P1P)=β0+β1X1+β2X
  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
R语言实战笔记第九章介绍了方差分析的内容。方差分析是一种用于比较两个或多个组之间差异的统计方法。在R语言中,可以使用lm函数进行方差分析的回归拟合。lm函数的基本用法是: myfit <- lm(I(Y^(a))~x I(x^2) I(log(x)) var ... [-1],data=dataframe 其中,Y代表因变量,x代表自变量,a代表指数,var代表其他可能对模型有影响的变量。lm函数可以拟合回归模型并提供相关分析结果。 在方差分析中,还需要进行数据诊断,以确保模型的可靠性。其中几个重要的诊断包括异常观测值、离群点和高杠杆值点。异常观测值对于回归分析来说非常重要,可以通过Q-Q图和outlierTest函数来检测。离群点在Q-Q图中表示落在置信区间之外的点,需要删除后重新拟合并再次进行显著性检验。高杠杆值点是指在自变量因子空间中的离群点,可以通过帽子统计量来识别。一般来说,帽子统计量高于均值的2到3倍即可标记为高杠杆值点。 此外,方差分析还需要关注正态性。可以使用car包的qqplot函数绘制Q-Q图,并通过线的位置来判断数据是否服从正态分布。落在置信区间内为优,落在置信区间之外为异常点,需要进行处理。还可以通过绘制学生化残差的直方图和密度图来评估正态性。 综上所述,R语言实战第九章介绍了方差分析及其相关的数据诊断方法,包括异常观测值、离群点、高杠杆值点和正态性检验。这些方法可以用于分析数据的可靠性和模型的适应性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [R语言实战笔记--第八章 OLS回归分析](https://blog.csdn.net/gdyflxw/article/details/53870535)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sevan_Li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值