第 6 课:逻辑回归LR与广义线性模型GLM开发实践
一、背景知识-LR/GLM应用场景及原理
1.广义线性模型建模场景举例
• 二分类问题:逻辑回归
(1).对数据进行二元分类:例如对病人的数据进行疾病诊断。
(2).预测某件事情发生的概率:例如预测一个网站的用户变成付费用户的概率。
• 广义线性模型(GLM):风险保费预测,根据要提供的保障责任,计算预期总索赔额
2.广义线性模型
(1).直接对纯保费建模
• tweedie 分布(1,2)
(2).也可以通过两步建模间接近似:纯保费 = 索赔次数 * 平均索赔金额
• 索赔次数:泊松分布、负二项分布
• 平均索赔金额:伽马分布、逆高斯分布
(3).回顾一下线性回归:它是GLM的一个基本形式,其假设响应变量Y的真实值由两部分组成:系统组件和误差组件
• 线性回归:响应变量Y的条件分布为高斯分布
• GLM允许误差项的概率分布扩展为指数分布族: 伯努利分布
(逻辑回归),泊松分布,gamma分布,复合泊松Gamma
分布,Tweedie分布等
3.一个广义线性模型有三个关键组件:
• 系统组件
• 随机组件
• 连接函数
二、隐语模型-密态SSLR/SSGLM
1.广义线性模型参数估计
• 一阶优化器:SGD参数估计方法
• 二阶优化器:迭代重加权最小二乘法(IRLS)
• 优点:
初始化准确
收敛速度快
• 缺点:
计算/通信复杂度高
2.秘密分享加法
• Step1:秘密切分
• Step2:分割交换与求和
• Step3:结果构建
3.秘密分享乘法
三、应用实现-从理论到隐语应用
1.SSGLM参数解析
• 二阶优化器 + 一阶优化器
2.使用SSLR
(1).准备SPU和数据(数据需要归一化)
(2). 模型训练
(3). 模型评估
• 模型训练(IRLS)
• 模型训练(SGD)
3.SS-LR / SSGLM 在隐语实现有什么独特优势?
• 可证安全
• 不依赖可信第三方
• 支持多种模型(伯努利分布(逻辑回归),泊松分布,gamma分布,Tweedie分布)
• 计算高效
四、实践
针对Tweedie分布的GLM建模
逻辑回归(Logistic Regression,简称LR)和广义线性模型(Generalized Linear Model,简称GLM)都是基于线性回归模型的扩展。
逻辑回归常用于二分类问题,可以用于预测一个样本属于某一类别的概率。通常情况下,逻辑回归的输出是一个介于0和1之间的概率值,可以通过设置一个概率阈值来进行分类。
广义线性模型是一种更一般化的回归模型,可以用于处理不同类型的响应变量,如二分类、多分类和连续型变量。在GLM中,通过引入一个称为链接函数的转换,将线性预测变量与响应变量的关系建立起来。
下面是逻辑回归和广义线性模型的开发实践步骤:
-
数据预处理:对数据进行清洗、特征选择和特征缩放等处理,以提高模型的性能和准确性。
-
数据划分:将数据集划分为训练集和测试集,用于模型的训练和评估。
-
模型训练:使用逻辑回归和广义线性模型的算法进行模型的训练。在训练过程中,可以选择合适的损失函数、优化算法和正则化方法来提高模型的性能。
-
模型评估:使用测试集对模型进行评估,常用的指标包括准确率、精确率、召回率和F1值等。
-
模型调优:根据评估结果,进行模型的调优。可以尝试不同的超参数配置、特征选择方法和正则化策略,以找到最优的模型配置。
-
模型应用:根据训练好的模型,对新的样本进行预测或分类。
总的来说,逻辑回归和广义线性模型是两种常用的机器学习方法,可以用于解决不同类型的分类和回归问题。在开发实践中,需要进行数据预处理、模型训练和评估等步骤,以找到最优的模型配置。