目录
对数几率回归
对数几率回归概述
目的:
对数几率回归用于分类任务,特别是二分类问题。它通过学习输入特征与输出类别之间的关系来预测分类结果。
模型输出:
模型输出的是一个实值,通过对数几率函数(Sigmoid函数)转换为介于0和1之间的概率值,用于判断样本属于某一类的概率。
模型形式:
转换函数:
使用对数几率函数(Sigmoid函数)将模型输出的实值转换为概率值。
对数几率函数:
模型表达式:
通过对数几率函数的逆变换,可以得到对数几率回归的模型表达式:
单位阶跃函数与对数几率函数
单位阶跃函数(Heaviside函数)是一个二值函数,将输入值直接划分为0或1,但其非连续性和不可导性限制了在实际应用中的使用。对数几率函数(Sigmoid函数)是其平滑的近似,具有连续性和可导性,有利于模型优化和求解。
对数几率回归的优点
-
直接对分类可能性进行建模,无需假设数据分布。
对数几率回归通过概率的方式直接对分类进行建模,不需要对输入数据的分布进行假设,这使得其适用范围更广。 -
提供概率预测,适用于需要概率辅助决策的任务。
对数几率回归不仅给出类别预测,还能提供每个类别的概率预测,有助于在需要概率信息的决策场景中应用,如风险评估和医疗诊断。 -
对数几率函数具有优良的数学性质,便于优化求解。
对数几率函数是连续且可导的,梯度计算方便,利于采用梯度下降法等数值优化算法进行参数估计。
参数估计方法
极大似然法:
极大似然法通过最大化对数似然函数来估计模型参数 www 和 bbb,其核心思想是找到一组参数使得在这些参数下观测数据的概率最大。
似然函数:
对于给定的数据集 {(xi,yi)}\{(x_i, y_i)\}{(xi,yi)},似然函数表示为:
迭代求解:
由于对数似然函数通常没有解析解,需使用数值优化方法进行求解:
- 梯度下降法: 通过计算对数似然函数相对于参数的梯度,沿梯度方向进行迭代更新,以逼近最优解。
- 牛顿法: 利用对数似然函数的二阶导数信息(海森矩阵)进行参数更新,收敛速度通常比梯度下降法快。
模型训练与评估
训练过程:
- 初始化参数: 初始化模型参数 www 和 bbb。
- 计算输出: 根据当前参数计算模型输出 zzz。
- 应用对数几率函数: 通过对数几率函数计算预测概率 yyy。
- 计算损失: 计算对数似然损失。
- 参数更新: 使用梯度下降法或其他优化算法更新参数。
- 迭代: 重复上述步骤直至收敛。
评估指标:
- 准确率: 预测正确的样本数占总样本数的比例。
- 精确率和召回率: 用于评估正类预测的准确性和覆盖率。
- F1-score: 精确率和召回率的调和平均,综合反映分类器性能。
- ROC曲线和AUC: 评估模型在不同阈值下的分类性能,AUC值越大表示模型性能越好。
参考文献
[1] 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导
[2] 周志华.机器学习[M].清华大学出版社,2016.
[3] 谢文睿 秦州 贾彬彬.机器学习公式详解第2版[M].人民邮电出版社,2023.