伽玛散度逻辑回归
最近自己的论文开始写了,参考了伽玛散度逻辑回归这篇文章的思路,添加了一些其他情况并对优化算法做了修改(具体保密,毕竟还在写(手动狗头)),现在记录一下这篇文章的一些思路,方便之后查看
1. 问题描述
伽玛散度逻辑回归的思想主要是在数据集存在噪声标签的框架下产生的,传统的用机器学习中的逻辑回归来处理噪声标签的问题包括mislabel逻辑回归以及α散度逻辑回归等等,这些算法都是估计两个噪声概率:P(Y=1 | Y0=0)和P(Y=0 | Y0=1),但是对这两个概率建模效果对于提升模型的泛化能力不太明显,因此通过引入伽玛散度来直接对目标概率P(Y=1 | X=x)建模
2. 证明推导
涉及的推导这里就不详细说明,总共包括四大部分。
第一部分是对混合标签情况下的目标函数进行推导;第二部分是证明在噪声标签情况下参数估计不会受到噪声比例影响,从而说明建模的稳健性;
第三部分是估计的参数的渐进正态性;
第四部分是噪声标签的识别,包括影响函数和与传统算法的对比。
3. 算法
算法整体设计流程不详细说明
4. 建模效果
总体的ACC相对于一般的逻辑回归和mislabel逻辑回归提升了很多,但是同样有在噪声比例扩大到30%、40%时ACC显著下降的情况,自己的改进应该会使得这个问题被显著消除