一、背景知识-LR/GLM应用场景及原理
1. 广义线性模型建模场景举例
-
二分类问题:逻辑回归
- 对数据进行二元分类:
- 例如,对病人的数据进行疾病诊断。
- 预测某件事情发生的概率:
- 例如,预测一个网站用户变成付费用户的概率。
- 对数据进行二元分类:
-
广义线性模型(GLM)
- 应用场景: 风险保费预测,根据要提供的保障责任,计算预期总索赔额
2. 广义线性模型
-
建模方法:
- 直接对纯保费建模
- 使用tweedie分布(1,2)
- 通过两步建模间接近似
- 纯保费 = 索赔次数 * 平均索赔金额
- 索赔次数:泊松分布、负二项分布
- 平均索赔金额:伽马分布、逆高斯分布
- 直接对纯保费建模
-
线性回归回顾:
- 它是GLM的一个基本形式,假设响应变量Y的真实值由两部分组成:系统组件和误差组件
- 线性回归: 响应变量Y的条件分布为高斯分布
- GLM扩展: 允许误差项的概率分布扩展为指数分布族,如伯努利分布(逻辑回归)、泊松分布、gamma分布、复合泊松Gamma分布、Tweedie分布等
3. 广义线性模型的三个关键组件
- 系统组件
- 随机组件
- 连接函数
二、隐语模型-密态SSLR/SSGLM
1. 广义线性模型参数估计
- 一阶优化器: SGD参数估计方法
- 二阶优化器: 迭代重加权最小二乘法(IRLS)
- 优点:
- 初始化准确
- 收敛速度快
- 缺点:
- 计算/通信复杂度高
- 优点:
2. 秘密分享加法
- Step1: 秘密切分
- Step2: 分割交换与求和
- Step3: 结果构建
3. 秘密分享乘法
三、应用实现-从理论到隐语应用
1. SSGLM参数解析
- 二阶优化器 + 一阶优化器
2. 使用SSLR
- 准备SPU和数据
- 数据需要归一化
- 模型训练
- 模型评估
- 模型训练(IRLS)
- 模型训练(SGD)
3. SS-LR / SSGLM 在隐语实现的独特优势
- 可证安全
- 不依赖可信第三方
- 支持多种模型:
- 伯努利分布(逻辑回归)
- 泊松分布
- gamma分布
- Tweedie分布
- 计算高效
四、实践
针对Tweedie分布的GLM建模
步骤:
- 准备数据: 数据需要预处理和归一化。
- 选择模型: 使用SSGLM选择Tweedie分布进行建模。
- 模型训练: 使用IRLS或SGD进行参数估计。
- 模型评估: 评估模型性能和准确性。