[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)


摘要

  1. 提出了一种基于混合整数线性规划(MILP)的数据集操作方法。提出的优化可以将数据集缩小到特定的大小,同时在不同维度上强制执行特定的分布。它本质上利用了初始数据集的冗余,以生成更紧凑的版本,并在每个维度上具有特定的目标分布。
  2. 如果期望的目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。根据问题的性质,还可以指定其他类型的目标分布。所提出的方法可用于机器学习,用于塑造训练和测试数据集,或用于众包,用于准备可管理的数据集。

引言

  1. 在我们的时代,数据是丰富的。在我们的日常生活中,照相机、麦克风和其他传感器的广泛使用使得收集各种类型的数据比以往任何时候都更容易。这为许多科学领域的进步,特别是图像处理和计算机视觉,做出了重大贡献。毫不夸张地说,如今,(几乎)每一个研究问题都至少有一个数据集。
  2. 大数据分析的进步促成了“越大越好”的观念。然而,通常很少关注数据集中的特征分布。因此,一些数据集可能严重偏向特定的属性。例如,一个用于性别估计的数据集,其大部分图像描述的是特定年龄组的人,它就不具有现实生活的代表性,可能不适合用作训练集。此外,偏好可能会影响多个感兴趣的维度,这限制了从特定数据集学习到的模型的可重用性。
  3. 根据目标的不同,可能会使用不同的方法来处理不平衡的数据集。欠采样(减少过代表的类)和过采样(复制过代表的类)是两种典型的方法[1]。为数据点分配不同的重要权重也是另一种可能产生更平衡的分类器的技术。
  4. 虽然现有的技术可以缓解不平衡的特征分布,但它们并没有明确提供缩小数据集大小的解决方案同时为不同的特征强制执行特定的目标分布(不一定是均匀的)。通过不同维度的特定分布的子抽样来合成一个更小的子集是一个具有挑战性的组合问题,在许多不同的领域都有兴趣。
  5. 为此,提出了一种基于混合整数线性规划(MILP)的数据集整形技术。提出的优化可以将数据集缩小到特定的给定大小,同时在不同的维度上强制执行特定的分布。它本质上利用了初始数据集的冗余性,以便生成更紧凑的版本,并具有跨每个维度的特定目标分布。如果目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。也可以使用其他类型的目标分布,这取决于问题的性质。

方法

在这里插入图片描述

在这里插入图片描述
这本质上意味着,从总样本集S中选择到目标概率质量函数(PMF) L1距离最小的N个样本,从而近似DMs(均匀分布)。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

补充:分支界定法

MILP问题是np -难组合问题。然而,现代的分支定界算法可以可靠而快速地解决现实世界中的许多问题。我们的实现1使用MATLAB的intlinprog函数在这里插入图片描述在这里插入图片描述

实验结果

从Gallagher数据集[7]中从相同的589张照片中选择90张照片的不同方法,根据不同的目标分布。第一行:数据集的原始分布。第二行:强制统一分配。第三行:强制三角形分布。最下面一行:强制线性递减分布。
在这里插入图片描述

  1. 介绍了一种基于混合整数线性规划(MILP)的数据集子采样与整形方法。提出的方法可以将数据集缩小到特定的大小,同时在不同的维度上强制执行特定的目标分布。实验结果表明,该算法能够对数据集进行欠采样,并成功地实现不同维度和量化范围内的各种目标分布。
  2. 作为一个简单的应用程序,我们的算法可以用于平衡最初不平衡的数据集(强制统一分布)。可能的用途包括机器学习和涉及众包的用户研究,可以创建更小的平衡数据集,以消除数据偏差对用户行为的影响。我们的技术可以限制这类研究的成本(要交互的项目数量更少),并间接提高获得结果的质量(由于工作者注意力的碎片化程度较低)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姬霓钛美

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值