​你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?

81d0bcf1cf117b601c1a34e94f98f893.gif

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

深度学习盛行的现在,作为一名合格的调参侠,至少都下载/使用过很多个数据集了。而现在 DL 中各种 setting 都涉及着对数据集之间关系的研究,几个典型的例子如下。

3f66168519e249d0c3a7933cd3663dd5.png

但是你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?我们或许对此一无所知。来自 Microsoft 的资深研究员 David Alvarez-Melis 连发多篇 ML 顶会对这个问题加以研究。

e09126f8a744c91fdae084b8070db873.png

本文将其一系列工作分为三部分介绍:1)如何进行数据集对齐;2)如何定义数据集之间的距离测度;3)如何优化数据集。我们首先介绍知识背景即最优运输理论,然后分别介绍 David Alvarez-Melis 组关于三方面工作的三篇顶会文章。

bdc0e60559e97361db3ba9b4bd4fbfba.png

最优运输理论

最优运输是一种寻找成本最低“将土堆从一个地方运送到另一个地方的方法”的方案。把概率分布想象成一堆泥土,最优传输直观地量化了它们的不同,即“泥土”或概率质量必须铲多少和多远才能将一堆泥土变成另一堆。

6e1b493267b1353733f96b222a3085b9.png

但是土堆和铲子与统计或机器学习有什么关系?我们将概率密度函数视为土堆,其中堆的“高度”对应于该点的概率密度,在堆之间铲土作为从一个点移动到另一个点的概率,其成本为这两点之间的距离。最优运输为我们提供了一种量化两个概率密度函数之间相似性的方法,即通过将一堆堆完全铲成另一堆的形状和位置所产生的最低总成本。对两个概率分布,最优运输理论较为正式的定义为:

4f8714d8bba0c1d0282408367146c3aa.png

这里是边缘分布的联合分布,“铲土”的花费记作样本距离,这就是我们熟知的 p-Wasserstein distance ,也是 Wasserstein GAN 的理论基础,更相信的定义可以参阅这里 [1]。作者使用的是离散型的 OT,即用狄拉克分布的概率密度函数,这时候 OT 是有能力为每个数据点分配对应关系的。

b1560d3b1cab6b58386aaa0d6ffc1032.png

7813e9bc19e086a3be3cd3d56f18c34f.png

Dataset alignment

Towards Optimal Transport with Global Invariances(AISTATS'19)

这里使用机器翻译作为例子,正常的机器翻译中我们都需要成对的数据,但是如果没有这种标注,一种可能的策略是通过数据的共现关系来分析词之间的关系。而 embedding 是词的一种更 compact 的表示方式,因此通过 embedding,我们是否能够更好地寻找这种关系?

1996d91ff675c9e9e061bc94d71a524c.png

一种可行的策略是,我们将两个 dataset 的 embedding 全部拿出来,然后计算点对之间的距离,将这个距离设置为 OT 中的花费。但是看下图,我们的

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值