悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

最新推荐文章于 2023-05-26 12:10:08 发布

喜欢打酱油的老鸟

最新推荐文章于 2023-05-26 12:10:08 发布

阅读量1.4k

点赞数

原文链接：https://www.toutiao.com/i6769797513386918412/

版权

人工智能专栏收录该内容

4214 篇文章 337 订阅

订阅专栏

2019-12-13 13:51:52

车栗子发自凹非寺
量子位报道 | 公众号 QbitAI

谁说Kaggle比赛都那么穷？

穷不穷，还要看做的是什么任务。

比如，有左右两段视频，你能分辨哪个是修过的么：

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

动图结尾公布了答案，右是原始视频，左是Deepfake之后。

就算肉眼也很难分辨，如果有AI能够胜任，重金奖励也不奇怪吧：

刚刚，就有一场捉拿假视频的Kaggle挑战赛启动了，奖池总额高达100万美元。

这是Facebook联合亚马逊、微软、“AI伙伴关系”以及各路学者，一同举办的比赛。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

参赛的AI不止观察画面是真是假，也要判断声音有没有修改过。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

大概是人类很少见到百万美元级的比赛，这场新的挑战赛引发了强烈关注，6小时Reddit热度达到268点，一天过去已有600+热度：

怎样的比赛？

比赛的名字叫Deepfake检测挑战赛，简称DFDC。

这场挑战赛是怎么来的？

就像开头提到的那样，主要是Facebook在搞事情，并且早就开始酝酿了：

去年9月，Facebook发起了一项画风清奇的征集活动。他们呼唤各种各样的人类，打开电脑的前摄像头，或者手机的前摄像头，面对镜头讲出一些很平凡的事情。

于是，千千万万的小伙伴开始了自己的表演，卧室、走廊、后院都变成了他们的舞台。探讨的话题也天南地北，从垃圾食品有多危险，到艺术教育有多重要。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

当然，Facebook提前向大家预告，会修改征集到的视频，也就是说每个上传作品的人类，都要同意成为Deepfake当事人。不论自己的脸换进别人的视频，还是别人的声音换进自己的视频。

后来那些视频，都成了比赛数据集的一部分：

数据集们

如果你仔细看了开头，可能会发现一个巨大的数字：训练集有470GB。

为了方便选手们下载和访问，善解人意的主办方把它分成了50个“小文件”，每个大约10GB。

当然，如果你的电脑够强大，也可以直接下载一个470GB的大文件。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

鉴于数据集大到很难直接在Kaggle上使用的地步，官方强烈建议离线训练。然后把训练好的模型，加载为一个外部数据集放进Kaggle Notebooks里，再在测试集上跑推理。

除了训练集，比赛还提供了一个包含400段视频的验证集，可以下载。

接下来就是测试集，主办方做了两个测试集。一个是公共测试集，公开的排行榜就是由它决定的；另一个是私有数据集，它会排出一个不公开的排行榜 (代码提交截止之后才会揭晓) 。

规则详情

AI要检测出哪些视频是修改过的。为了衡量AI的检测能力，选手要把代码放到黑盒环境里测试。

报名比赛之后，每天只能提交两次，最终也只能选择成绩最好的两次来参赛。

2020年3月3日是加入比赛的截止日期，同意比赛规则以及组队，都必须在这之前完成。

2020年3月31日是提交模型的最后期限。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

比赛前五名都有奖励：第一50万美元，第二30万美元，第三10万美元，第四6万美元，第五4万美元。

选手可以选择公开自己提交的模型，也可以选择不公开。但不公开的话，就没有领奖资格了。

重赏之下，必有勇夫。你是不是也有点小激动了？

回头看去

说起来，机器学习领域上一次刻骨铭心的百万美元级比赛，还是2006年的网飞奖 (Netflix Prize) 吧。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

那时，Netflix豪掷100万美元悬赏一个算法，预测用户对电影的评分：只要比公司自己的Cinamatch算法提升10%，就能得到这比巨款。

2009年，奖金终于被一个名叫BellKor’s Pragmatic Chaos的团队抱走，他们开发的算法，比Netflix当时在用的系统，提升了10.06%。

但从那以后，同样慷慨的比赛就罕见了。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

取而代之，奖池几万美元的Kaggle比赛越来越多。

甚至有小伙伴灵魂发问：

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

“为啥Kaggle比赛奖金那么少？”“主办方为什么那么抠？”

有人说网飞奖的时代，是刀耕火种的时代，而今ML算法门槛远没有那么高了。

这的确是事实，但会不会投入重金举办比赛，也不是这一个因素决定的。

在Deepfake盛行的今天，假视频越来越逼真，也让人类感受到了威胁，频频发出“以后什么都不能信了”的感慨。

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

而比起普通人，公众人物尤其受到假视频的侵扰。斯嘉丽·约翰逊 (俗称寡姐) 就曾经公开表达过：Deepfake小电影已经严重影响了她的生活。

为了明辨真伪，减少AI制造的虚假信息带来的伤害，自然要利用AI来回击假视频。

Facebook紧紧牵起亚马逊和微软的小手，让百万美元ML比赛重出江湖，也是为了给自家和别家的AI创造一个美好的发展空间，不要因为假视频泛滥而受到太大的阻碍。决心不可谓不盛。

最后复习一下各项奖金额度，这样你也会去参加一下吧：

悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

比赛传送门：
https://www.kaggle.com/c/deepfake-detection-challenge/

— 完 —

喜欢打酱油的老鸟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
悬赏百万美金检测Deepfake假视频，数据集470G：比赛很久没这么壕

2019-12-13 13:51:52车栗子发自凹非寺量子位报道 | 公众号 QbitAI谁说Kaggle比赛都那么穷？穷不穷，还要看做的是什么任务。比如，有左右两段视频，你能分辨哪个是修过的么：动图结尾公布了答案，右是原始视频，左是Deepfake之后。就算肉眼也很难分辨，如果有AI能够胜任，重金奖励也不奇怪吧：刚刚，就有一场捉拿假视频的Kagg...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。