产险精算GLM案例

欧拉n哥

已于 2022-12-29 14:50:33 修改

阅读量690

点赞数

分类专栏：数据分析文章标签：线性回归

于 2022-12-23 18:30:00 首次发布

本文链接：https://blog.csdn.net/Cuiweibaike/article/details/128415808

版权

数据分析专栏收录该内容

16 篇文章

订阅专栏

这篇博客介绍了如何使用Python验证北美产险精算学会CAS的《广义线性模型实践者指南》中的三个模型：正态分布与直等连接函数模型、泊松分布与对数连接函数模型、伽马分布与逆连接函数模型。所有模型的验证结果与教材一致。尽管泊松分布模型的aic指标更优，但正态分布模型在特定组别的风险估价上存在偏差。文章强调了在选择模型时不仅要看拟合效果，还需结合业务实际，避免估价偏差对业务的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是对北美产险精算学会CAS北美产险精算师考试教材《广义线性模型实践者指南》的第一章中的实例的结果验证，教材中使用的是纯数学理论推导，这里使用python进行结果验证。

原始数据是一个简单的分组数据：

这个原始数据表需要进行结构化后，才方便建模

Class	Sex	Area	ACS
1	Male	Urban	800
2	Male	Rural	500
3	Female	Urban	400
4	Female	Rural	200

教材给出了3个可选模型：

（1）正态分布和直等连接函数

拟合结果与教材一致。

（2）泊松分布和对数连接函数

拟合结果与教材一致。

（3）伽马分布和逆连接函数

拟合结果与教材一致，这个模型的结果在教材的附录F中。

模型总结：

从模型结果的相关参数来看，伽马分布配逆连接函数模型的效果是最差的，无论是aic指标值，还是参数的p值，尤其是Area系数的p值高达0.105。而泊松分布配对数连接函数、正态分布配直等连接函数，这两个模型的拟合效果相差不大，尽管前者的指标值略微好看一些。

从业务的角度讲，还要关注一个事情，那就是正态分布配直等连接函数的模型，对第1、4组风险的估价是偏低的，而第2、3组风险的估价是偏高的；而泊松分布配对数连接函数的模型则相反，对第1、4组风险的估价是偏高的，而第2、3组风险的估价是偏低的。因此，尽管模型整体拟合效果可以接受，还要从业务的角度考虑一下这个事情，需要看一下公司的业务重点或者未来业务占比会是向哪些组倾斜，避免过多写入模型估价偏低的业务组别。

（精算部落）