【文献阅读】数据重采样+特征选择(1)

1 面向不均衡数据的多分类集成算法

1.1 两阶段采样

算法1:采样

1.2 算法整体框架

算法1整体框架

1.3 实验

算法1:实验设计part1

1.4 期刊

算法1:实验part2

2 基于多阶段混合集成的中小企业信用风险评价

摘要:中小企业信用风险评价是融合了处理样本类不平衡、数据高维冗余、集成分类算法选择等多阶段问题的混合集成体系,而目前的研究多集中在单一阶段。本文选用三种采样方法、两种降维方法以及两类集成分类算法,组成了十二个混合集成系统,通过实证分析不同的采样与降维思路对中小企业信用风险评价结果的影响,并从中选取最佳的集成策略。其中,SMOTEENN算法(SMOTE+数据清洗)是指通过将SMOTE算法扩充数据集,得到新数据集,过采样之后基于ENN数据清理技术对样本重叠数据进行清洗,相较于SMOTE过采样算法,可以将部分不合理的人工样本剔除。
论文1框架图

3 基于边界自适应SMOTE和FocalLoss函数改进LightGBM的信用风险预测模型

3.1 摘要

提出一种新的基于边界自适应合成少数类过采方法(BA-SMOTE)和利用FocalLoss函数改进LightGBM损失函数的算法(FLLightGBM)相结合的信用风险预测模型。
(1)在边界合成少数类过采样(Borderline-SMOTE)的基础上,引入自适应思想和新的插值方式,使每个处于边界的少数类样本生成不同数量的新样本,并且新样本的位置更靠近少数类样本,以此来平衡数据集;
(2)利用Focal Loss函数(这是啥函数)来改进LightGBM算法的损失函数,并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;
(3)最后在Lending Club数据集上进行信用风险预测。

3.2 改进的过采样方法

(1)Borderline-SMOTE算法虽然改善了样本重叠问题,但是生成新样本的方式与SMOTE算法相同,对于每个少数类样本合成的新样本数是一样的,并没有考虑到样本差异性带来的影响;并且当处于边界的少数类样本过采样时,新生成的样本也会处于样本边界,这样容易使多数类与少数类的样本边界越来越模糊【很抽象 不太理解】。
(2)将自适应密度分布思想(干嘛用的)引入Borderline-SMOTE算法中,并且利用新的插值方式生成新样本来解决上述问题。
插值方式

3.3 基于Focal Loss改进的LightGBM算法

(1)LightGBM算法

(2)FLLightGBM算法

在标准交叉熵损失函数的基础上进行修改,调整损失函数的类别权重和易分类样本权重及难分类样本权重以提升模型的分类准确率。
损失函数公式

3.4 基于BA-SMOTE和FLLightGBM分类模型

3.4.1 随机森林特征选择

建模流程

3.5 期刊

计算机应用-C刊

4 基于 ADASYN-SFS-RF的欺诈检测模型泛化性能提升及可解释性研究

  • ADASYN算法将分类决策边界向困难的实例进行自适应移动实现数据扩增,以解决不平衡数据造成的过拟合问题;
  • 基于随机森林的序列向前搜索策略算法筛选出最优特征子集对欺诈进行检测,减低采样算法添加噪声数据对分类边界确定的影响,构建欺诈监测模型;
  • 使用LIME对模型检测见过最初局部解释,提高模型的使用价值。
    模型框架

总结

  • 数据采样部分不仅仅局限于经典算法的简单改进,思路还可以扩展,要多读文献;
  • 可以从插值方式设计、采样策略设计两个角度深入;
  • 特征选择本身可以继续针对阈值设定部分展开探讨;
  • 特征选择算法本身了解不足,对比算法有待扩充。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值