【文献阅读】数据重采样+特征选择（1）

Tabitha_Xing

已于 2023-01-30 21:46:38 修改

阅读量527

点赞数 2

分类专栏： Literature reading 文章标签：人工智能深度学习

于 2023-01-30 20:40:33 首次发布

本文链接：https://blog.csdn.net/qq_44122600/article/details/128797957

版权

Literature reading 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

1 面向不均衡数据的多分类集成算法

1.1 两阶段采样

算法1：采样

1.2 算法整体框架

算法1整体框架

1.3 实验

算法1：实验设计part1

1.4 期刊

算法1：实验part2

2 基于多阶段混合集成的中小企业信用风险评价

摘要：中小企业信用风险评价是融合了处理样本类不平衡、数据高维冗余、集成分类算法选择等多阶段问题的混合集成体系，而目前的研究多集中在单一阶段。本文选用三种采样方法、两种降维方法以及两类集成分类算法，组成了十二个混合集成系统，通过实证分析不同的采样与降维思路对中小企业信用风险评价结果的影响，并从中选取最佳的集成策略。其中，SMOTEENN算法（SMOTE+数据清洗）是指通过将SMOTE算法扩充数据集，得到新数据集，过采样之后基于ENN数据清理技术对样本重叠数据进行清洗，相较于SMOTE过采样算法，可以将部分不合理的人工样本剔除。
论文1框架图

3 基于边界自适应SMOTE和FocalLoss函数改进LightGBM的信用风险预测模型

3.1 摘要

提出一种新的基于边界自适应合成少数类过采方法（BA-SMOTE）和利用FocalLoss函数改进LightGBM损失函数的算法（FLLightGBM）相结合的信用风险预测模型。
（1）在边界合成少数类过采样（Borderline-SMOTE）的基础上，引入自适应思想和新的插值方式，使每个处于边界的少数类样本生成不同数量的新样本，并且新样本的位置更靠近少数类样本，以此来平衡数据集；
（2）利用Focal Loss函数（这是啥函数）来改进LightGBM算法的损失函数，并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型；
（3）最后在Lending Club数据集上进行信用风险预测。

3.2 改进的过采样方法

（1）Borderline-SMOTE算法虽然改善了样本重叠问题，但是生成新样本的方式与SMOTE算法相同，对于每个少数类样本合成的新样本数是一样的，并没有考虑到样本差异性带来的影响；并且当处于边界的少数类样本过采样时，新生成的样本也会处于样本边界，这样容易使多数类与少数类的样本边界越来越模糊【很抽象不太理解】。
（2）将自适应密度分布思想（干嘛用的）引入Borderline-SMOTE算法中，并且利用新的插值方式生成新样本来解决上述问题。