[隐私计算学习笔记]6——逻辑回归LR与广义线性模型GLM开发实践

目录

1. 背景知识:LR/GLM应用场景及原理

1.1 LR/GLM 应用场景

1.2 LR/GLM 原理

2. 密态SSLR/SSGLM

3. 从理论到隐语应用

3.1 SSGLM参数解析

3.2 使用SSLR

4. 小结


1. 背景知识:LR/GLM应用场景及原理

1.1 LR/GLM 应用场景

  • 二分类问题:逻辑回归

        对数据进行二元分类,如对病人是否患病进行诊断。

        预测某件事情发生的概率,如预测一个网站的用户变为付费用户的概率。

 

  • 广义线性模型(GLM):风险保费预测,根据需要提供的保障责任,计算预期总索赔额。有两种方式:
  1.  直接对纯保费建模,服从tweedie分布(1,2)
  2. 通过两步建模间接近似:纯保费 = 索赔次数 * 平均索赔金额 (其中,索赔次数服从泊松分布、负二项分布,平均索赔金额服从伽马分布、逆高斯分布)

1.2 LR/GLM 原理

  •  LR(GLM的一种基本形式)

        其假设响应变量Y的真实值由系统组件(system component)和误差组件(error component)组成。其中系统组件为一个线性预测器\eta =x^{T}\beta(数值项,可拟合),误差组件为白噪声,服从高斯随机分布\varepsilon \sim N(0,1)。故响应变量Y的条件分布为高斯分布:

Y\sim N(x^T\beta , 1)

 

  • GLM

        GLM允许误差项的概率分布扩展为指数分布族:伯努利分布(逻辑回归)、泊松分布、Gamma分布、复合泊松Gamma分布、Tweedie分布等。

一个广义线性模型有三个关键组件:

  1. 系统组件:一个线性预测器\eta =x^{T}\beta,x为自变量,\beta是定义的未知参数。
  2. 随机组件:一个指数族分布作为响应变量Y的概率分布p(Y;\theta )\theta是分布的自然参数,\theta\mu存在一一映射关系,用函数\Psi表示关系。
  3. 连接函数:使得\eta =g(\mu ),描述系统组件和随机组件之间的关系

2. 密态SSLR/SSGLM

  • 广义线性模型参数估计

一阶优化器:SGD参数估计方法

 二阶优化器:迭代重加权最小二乘法(IRLS)

        参数\beta的迭代公式:

其中,

较一阶优化器而言, 二阶优化器初始化准确、收敛速度快但计算、通信复杂度较高。

  • 秘密分享加法

        各参与方不知道其他参与方的秘密数值,也不需要第三方机构作为中立参与方参与。

  • 秘密分享乘法

3. 从理论到隐语应用

3.1 SSGLM参数解析

  • 选择建模标签分布类型

  • 选择连接函数

  • 若选择Tweedie分布,对p调参

  •  优化器
一阶优化器

 

二阶优化器,为加速优化过程,可先使用二阶优化器初始化,之后再使用一阶优化器收敛
  •  偏置

  • 描述方差(默认值为1,根据不同数据不同)

  •  对数据加权

3.2 使用SSLR

 Step1:准备SPU和归一化数据

Step2: 模型训练

(可选)SGD/IRLS优化器进行模型训练

SGD

 

IRLS

Step3:模型评估

4. 小结

        本篇文章介绍了LR和GLM的原理以及实际应用,介绍了广义线性模型的参数估计方法以及秘密乘加的原理。介绍了隐语中使用SSGLM模型的相关参数定义以及SSLR的使用方法。

(PS:感谢您看到这里,坚持不易,谢谢您的支持鼓励!!!)

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值