matlab reff,R语言逻辑回归和泊松回归模型对发生交通事故概率建模

a4c26d1e5885305701be709a3d33442f.png

我们已经看到了如何考虑风险敞口,计算包含风险敞口的多个数量(经验均值和经验方差)的非参数估计量。让我们看看如果要对二项式变量建模。

这里的模型如下:

未观察到

a4c26d1e5885305701be709a3d33442f.png该期间的索赔数量 blog_14154cb430102ytlg.html

索偿的数量 a4c26d1e5885305701be709a3d33442f.png

a4c26d1e5885305701be709a3d33442f.png

考虑一种情况,其中关注变量不是索偿的数量,而仅仅是索偿发生的标志。然后,我们希望将事件模型

blog_14154cb430102ytlg.html对比

blog_14154cb430102ytlg.html,解释为不发生和发生。鉴于我们只能观察

blog_14154cb430102ytlg.htmlvs blog_14154cb430102ytlg.html。利用泊松过程模型,我们可以获得

blog_14154cb430102ytlg.html

这意味着在一年的前六个月中没有索赔的概率是一年中没有索赔的平方根。假设可以

blog_14154cb430102ytlg.html通过一些链接函数(使用GLM术语)表示为一些协变量来解释没有索赔的概率,

blog_14154cb430102ytlg.html

现在,因为我们确实观察到 a4c26d1e5885305701be709a3d33442f.png而不是 a4c26d1e5885305701be709a3d33442f.png

我们有

blog_14154cb430102ytlg.html

我们将使用的数据集

> T1= contrat$nocontrat[I==FALSE]

> nombre2 = data.frame(nocontrat=T1,nbre=0)

> sinistres = merge(contrat,nombre)

> sinistres$nonsin = (sinistres$nbre==0)

我们可以考虑的第一个模型基于标准的逻辑回归方法,即

blog_14154cb430102ytlg.html

很好,但是很难用标准函数处理。尽管如此,始终有可能通过数值计算给定的最大似然估计量

blog_14154cb430102ytlg.html

> optim(fn=logL,par=c(-0.0001,-.001),

+ method="BFGS")

$par

[1] 2.14420560 0.01040707

$value

[1] 7604.073

$counts

function gradient

42 10

$convergence

[1] 0

$message

NULL

现在,让我们看看基于标准回归模型的替代方案。例如对数线性模型(Logistic回归算法)。因为暴露数是年概率的幂,所以如果

a4c26d1e5885305701be709a3d33442f.png是指数函数(或 blog_14154cb430102ytlg.html对数链接函数) ,因为

blog_14154cb430102ytlg.html

现在,我们对其进行编码,

Error: no valid set of coefficients has been found: please

supply starting values

尝试了所有可能的方法,但是无法解决该错误消息,

> reg=glm(nonsin~ageconducteur+offset(exposition),

+ data=sinistresI,family=binomial(link="log"),

+ control =

glm.control(epsilon=1e-5,trace=TRUE,maxit=50),

+ start=startglm,

+ etastart=etaglm,mustart=muglm)

Deviance = NaN Iterations - 1

Error: no valid set of coefficients has been found: please

supply starting values

所以我决定放弃。实际上,问题出在

blog_14154cb430102ytlg.html接近1 的事实。因为

blog_14154cb430102ytlg.html

其中

blog_14154cb430102ytlg.html接近0,所以我们可以用泰勒展开,

blog_14154cb430102ytlg.html

在这里,暴露数不再显示为概率的幂,而是相乘。如果我们考虑对数链接函数,那么我们可以合并暴露数的对数。

现在可以完美运行了。

现在,要查看最终模型,我们回到Poisson回归模型,因为我们确实有概率模型

blog_14154cb430102ytlg.html

现在我们可以比较这三个模型。我们还应该包括没有任何解释变量的预测。对于第二个模型(实际上,它运行时没有任何解释变量),我们运行

> regreff=glm((1-nonsin)~1+offset(log(exposition)),

+ data=sinistres,family=binomial(link="log"))

预测

> exp(coefficients(regreff))

(Intercept)

0.06776376

可与逻辑回归比较,

> 1-exp(param)/(1+exp(param))

[1] 0.06747777

但是与泊松模型有很大的不同,

(Intercept)

0.07279295

我们产生一个图表比较那些模型,

> lines(age,1-yml1,type="l",col="purple")

> abline(h=exp(coefficients(regreff)),lty=2)

a4c26d1e5885305701be709a3d33442f.png

在这里观察到这三个模型是完全不同的。实际上,使用两个模型,可以进行更复杂的回归分析(例如使用样条曲线),以可视化年龄对发生或不发生交通事故概率的影响。如果将泊松回归(仍为红色)和对数二项式模型与泰勒展开进行比较,我们得到

a4c26d1e5885305701be709a3d33442f.png

参考文献

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值