逻辑回归LR与广义线性模型GLM开发实践

第 6 课:逻辑回归LR与广义线性模型GLM开发实践

一、背景知识-LR/GLM应用场景及原理

1.广义线性模型建模场景举例

• 二分类问题:逻辑回归

(1).对数据进行二元分类:例如对病人的数据进行疾病诊断。

(2).预测某件事情发生的概率:例如预测一个网站的用户变成付费用户的概率。

• 广义线性模型(GLM)风险保费预测,根据要提供的保障责任,计算预期总索赔额

2.广义线性模型

(1).直接对纯保费建模

• tweedie 分布(1,2)

(2).也可以通过两步建模间接近似:纯保费 = 索赔次数 * 平均索赔金额

• 索赔次数:泊松分布、负二项分布

• 平均索赔金额:伽马分布、逆高斯分布

(3).回顾一下线性回归:它是GLM的一个基本形式,其假设响应变量Y的真实值由两部分组成:系统组件和误差组件

• 线性回归:响应变量Y的条件分布为高斯分布

• GLM允许误差项的概率分布扩展为指数分布族: 伯努利分布

(逻辑回归),泊松分布,gamma分布,复合泊松Gamma

分布,Tweedie分布等 

3.一个广义线性模型有三个关键组件:

• 系统组件

• 随机组件

• 连接函数

二、隐语模型-密态SSLR/SSGLM

1.广义线性模型参数估计

• 一阶优化器:SGD参数估计方法

• 二阶优化器:迭代重加权最小二乘法(IRLS)

• 优点:

初始化准确

收敛速度快

• 缺点:

计算/通信复杂度高

2.秘密分享加法

• Step1:秘密切分

• Step2:分割交换与求和

• Step3:结果构建

3.秘密分享乘法

三、应用实现-从理论到隐语应用

1.SSGLM参数解析

• 二阶优化器 + 一阶优化器

2.使用SSLR

(1).准备SPU和数据(数据需要归一化)

(2). 模型训练

(3). 模型评估

• 模型训练(IRLS)

• 模型训练(SGD)

3.SS-LR / SSGLM 在隐语实现有什么独特优势?

• 可证安全

• 不依赖可信第三方

• 支持多种模型(伯努利分布(逻辑回归),泊松分布,gamma分布,Tweedie分布)

• 计算高效

四、实践

针对Tweedie分布的GLM建模

逻辑回归(Logistic Regression,简称LR)和广义线性模型(Generalized Linear Model,简称GLM)都是基于线性回归模型的扩展。

逻辑回归常用于二分类问题,可以用于预测一个样本属于某一类别的概率。通常情况下,逻辑回归的输出是一个介于0和1之间的概率值,可以通过设置一个概率阈值来进行分类。

广义线性模型是一种更一般化的回归模型,可以用于处理不同类型的响应变量,如二分类、多分类和连续型变量。在GLM中,通过引入一个称为链接函数的转换,将线性预测变量与响应变量的关系建立起来。

下面是逻辑回归和广义线性模型的开发实践步骤:

  1. 数据预处理:对数据进行清洗、特征选择和特征缩放等处理,以提高模型的性能和准确性。

  2. 数据划分:将数据集划分为训练集和测试集,用于模型的训练和评估。

  3. 模型训练:使用逻辑回归和广义线性模型的算法进行模型的训练。在训练过程中,可以选择合适的损失函数、优化算法和正则化方法来提高模型的性能。

  4. 模型评估:使用测试集对模型进行评估,常用的指标包括准确率、精确率、召回率和F1值等。

  5. 模型调优:根据评估结果,进行模型的调优。可以尝试不同的超参数配置、特征选择方法和正则化策略,以找到最优的模型配置。

  6. 模型应用:根据训练好的模型,对新的样本进行预测或分类。

总的来说,逻辑回归和广义线性模型是两种常用的机器学习方法,可以用于解决不同类型的分类和回归问题。在开发实践中,需要进行数据预处理、模型训练和评估等步骤,以找到最优的模型配置。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值