论文阅读 REBAGG: REsampled BAGGing for Imbalanced Regression

梁平欧文

已于 2024-07-23 19:38:36 修改

阅读量177

点赞数 3

文章标签：数据挖掘回归集成学习

于 2023-11-09 22:21:44 首次发布

本文链接：https://blog.csdn.net/m0_59108404/article/details/134317488

版权

文章目录

简要介绍

本文主要介绍了一种基于数据预处理策略与套袋算法（Bagging）的用于解决不平衡数据的回归问题的方法，并采用由Torgo和Ribeiro（2009年）以及Ribeiro（2011年）提出的评估指标，验证了本文所提算法（REBAGG算法）在不用领域和学习算法中的压倒性优势。

研究背景

针对于不平衡数据集所提出的大多数解决方案都集中在类不平衡问题上，但其实回归、数据流或多标签等其他任务也存在不平衡数据这个问题，本文将讨论不平衡数据的回归任务。

提出的问题以及解决方案

不平衡数据领域中一个重要的挑战是，由于标准的学习器在通常情况下关注的是最常见的案例（而这些案例在不平衡问题中却是用户最不感兴趣的），无法关注罕见的、极端的案例。另一个挑战是，传统的模型性能评估指标，并不适合用于判断不平衡问题中模型的性能，有可能导致模型预期性能的错误结论。为了解决前者，一般采用四种方法用于解决不平衡问题：数据预处理、开发专门针对于不平衡数据的学习器、预测后再处理和混合方法。本文针对于数据预处理的方法进行扩展，即将数据预处理策略和套袋算法整合在一起。对于后者，本文依据Ribeiro在《Utility-based Regression》中提出的一种获取回归任务精确度和召回率的效用框架，使用适用于回归任务的F₁作为主要评估指标。

不平衡回归任务的难点在于两个方面，1）用户关心或者感兴趣的的案例在原始数据集中代表性不足；2）目标变量是连续的，甚至是无限的。这两个方面共同作用导致了标准学习器无法关注用户感兴趣的情况。为了解决目标变量的重要性定义问题，Ribeiro在《Utility-based Regression》中提出了相关性函数的概念。该函数将变量域映射为一个相关性标度，其中1代表最大相关性，0代表最小相关性，并且还提出了一种自动获取该函数的方法。另外，还需要用户定义一个相关性阈值t_R，以此将数据集D定义为两个互不相关的子集：稀有的和用户感兴趣的子集D_R，正常的和用户不感兴趣的子集D_N。其中，D_R = {⟨x, y⟩ ∈ D : φ(y) ≥ t_R } , D_N = {⟨x, y⟩ ∈ D : φ(y) < t_R }。

实验结果

这里附上论文中实验涉及到的数据、实验代码和结果：https://github.com/paobranco/REBAGG

梁平欧文

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
论文阅读 REBAGG: REsampled BAGGing for Imbalanced Regression

文章目录简要介绍研究背景提出的问题以及解决方案相关工作套袋算法（Bagging）重采样策略稀有案例和正常案例平衡的重采样：稀有案例和正常案例比例不同的重采样：实验结果简要介绍本文主要介绍了一种基于数据预处理策略与套袋算法（Bagging）的用于解决不平衡数据的回归问题的方法，并采用由Torgo和Ribeiro（2009年）以及Ribeiro（2011年）提出的评估指标，验证了本文所提算法（REBAGG算法）在不用领域和学习算法中的压倒性优势。研究背景针对于不平衡数据集所提出的大多数解决方案都集中在类
复制链接

扫一扫