每天给你送来NLP技术干货!
作者 | 王剑峰(已授权)
https://zhuanlan.zhihu.com/p/411800486
来自 | NewBeeNLP
图比较多,希望大家谅解。文章提到的所有证据和截图都已经在以下两个链接中存档,可随时查阅:
https://drive.google.com/drive/folders/1Wwekucy1BqE93cvVgoGbkH2y7x6Nn8GU
evidence:http://33h.co/w6ke6
知乎问题:如何看待北京理工大学某硕士生被指几乎一字不差地抄袭论文?https://www.zhihu.com/question/487690998
起因
昨天(2021 年 9 月 17 日),我们在 arxiv 上发现了一篇刚刚挂出的文章:
Label Assignment Distillation for Object Detection[1]
这篇文章厉害在哪里呢?厉害在文章内容与我们 NeurIPS 2020 的投稿「高度一致」。我们的投稿,被「泄露」并被「抄袭挪用」了。
以下是我们当初投稿的 pdf:
http://33h.co/w6khg
先放个对比。下图中,左图是 arxiv 文章,右图是我们的投稿文章:
标题完全一致,摘要几乎完全一致
图片完全一致,观察原文件可以发现左图文件对应图片的分辨率较低,是截图所致
表格数据完全一致
我们只截图了一部分雷同之处,因为如果要把所有雷同之处都截图,需要截图整整 8 页(论文共 8 页)。作者们主要修改了部分措辞,并采用了 CVPR 2021 的 latex 模板,「这一过程完全是主观刻意的」。我们要强调一点,arxiv 文章中「没有任何一个配图、表格、公式是新的」,完全没有做额外的实验。
自证
我们首先需要自证该文章确实是我们 NeurIPS 2020 的投稿。比如投稿邮件记录:
比如 overleaf 历史记录:
你细心的话可以发现pipeline图我们改了好几个版本
比如实验数据记录:
因为公司保密制度打了些码,但至少可以看到时间、目录和公式;对,后来还改投过 AAAI 2021,desk-reject;不过 AAAI 版本和 NeurIPS 版本写法差距很大,我们确定泄露的是 NeurIPS 版本
比如带时间的聊天记录旁证:
比如带时间的专利申请记录:
overleaf 上的 latex 源码我已经放在文首的网盘链接里了,arxiv 对应的 latex 源码也在。
我们在公司内部还形成了白皮书文档,并对其他组展示过这个工作(有 ppt 和视频为证),证人也非常多。
我们承认这篇文章的质量是比较一般,连续投 NeurIPS 2020 和 AAAI 2021 都跪了之后,我们就没有再在上面花精力了。但从法律上讲,这篇文章依旧是我们的学术成果,我们拥有对其的著作权。从学术上讲,做这篇文章的过程直接孵化了我们中稿 CVPR 2021 的工作(见王剑锋:丢弃Transformer,FCN也可以实现E2E检测[2]),对我们来讲是有很大价值的。
查证 + 投诉
我们的投稿文章是怎么泄露出去并被剽窃挪用的呢?我们能做的并不多,但还是有一些。最可疑的当然是我们的审稿人,但双盲机制使我们无从知晓审稿人是谁。arxiv 文章的作者有 3 位,且没有在论文中放联系方式,我们只知道三个作者分别来自「北京理工大学」和「河海大学」。我们依据英文名检索,几乎检索不到任何信息,可见 3 位作者在学术圈并不知名;我们冒昧推测这 3 位中并没有审稿人级别的人,所以泄露给他们的另有其人。
没有联系方式,连沟通的渠道都没有;幸好 arxiv 本身是可以查到上传者邮箱的。
根据邮箱前缀的学号,我们定位到了排序第二位的共同一作(以下简称二作)是北京理工大学自动化学院智能信息处理与控制方向 2020 级硕士生张海伦。
由于我们证据完善,底气非常足,对方的剽窃手段又非常粗陋,远不如前些日子爆出的洗稿事件高明,我们首先保持了克制。考虑到当事人中有人躺枪背黑锅的可能性,我们先私下请北京理工大学的朋友去联系对方的学院寻找当事人和其余的当事人,并寻求一个说法。
与此同时,我们保存并初步整理了证据,通过 CMT 系统和 NeurIPS 2020 官网,向 NeurIPS 2020 组委会发邮件做了初步投诉。我们的关注点主要在于「是否存在审稿人泄露、传播、挪用投稿的情况」,这也是我们身边知道这件事的伙伴们最关心的问题——我们还能不能放心投稿了?
我们等到第二天(2021 年 9 月 18 日),我们的朋友一直在与对方沟通,并没有什么进展;同时,我们在知识星球上看到了外界对该文章的介绍。于是我们决定进一步向北京理工大学、河海大学发了举报信,其内容与昨天的投诉基本一致。后又将类似内容正式邮件了二作。
在此声明,起初我们通过 arxiv 文章的 latex 文件内的 submission ID 推测已经提交到 CVPR 2021,后续我们发现 submission ID 属于其他文章,该 arxiv 文章没有被提交;此外后续我们发现一作 Minghao Gao 不是北京理工大学的学生
回复
在正式邮件了二作后,二作首先通过邮件回复了我:
这个回复中,“参与了部分代码和实验”的说法使我们很不满,前面已经强调过,arxiv 文章中没有任何一个配图、表格、公式是新的,我不明白有什么实验可以做的。
过了一会儿又在知乎上联系了我:
请注意,对方的话中存在非常多的疑问:
二作此时改口声称只是帮助上传了 arxiv,这与其邮件中的说法不符,也与其共同一作的地位不符
作者撤回 CVer 的理由是“pdf 上传错误”,不承认自己的行为属于剽窃
二作希望我们撤销举报,并把主要责任推给了一作,但对于提供其他作者的信息非常消极
我们直到现在对三作仍一无所知
至少我们现在知道了一作中文名高明豪,不是北京理工大学的学生,现已毕业,目前无工作单位。
接下来我们收到了一作的邮件,但该邮件彻底激怒了我们及身边所有人,这也是我们在保持了一段时间克制后最终仍决定写下这篇知乎专栏的直接导火索:
从邮件内容来看,其一,“pdf上传错误”、“初次涉猎相关事务”,当事人们仍没有真正认识到这件事属于剽窃,是严重的学术不端行为,试图蒙混过关;其二,“审稿留下当学习资料”暗示了存在投稿被不当泄露乃至传播的情况。
通过多方渠道已经证实,一作是山东科技大学计算机科学与工程学院网络工程专业 2017 级本科生高明豪,现已毕业。三作是河海大学常州校区物联网院计算机科学与技术专业 2017 级本科生晏艺格,现已毕业。
截至当前,我们只进行了上述提及的投诉和举报,与当事人沟通,以及写下了这篇知乎专栏,并没有其他行为。截至当前,NeurIPS 2020 组委会、北京理工大学、河海大学尚无官方回复。我们尚不能彻底确定一作的毕业学校。我们仍然不知道投稿是如何被泄露并挪用的,泄露的责任人是谁。我们也已经咨询了公司法务。后续我们将继续与多方沟通。
思考
我们目前仍不知道这件事的影响范围有多大,我们只知道当事人们没有给我们满意的答复,没有讲清楚事情的来龙去脉,没有找到投稿的泄露源头;当事人们的说法前后矛盾,我们目前并不能全然相信当事人们的表态:
它可能仅仅是一起偶然的投稿泄漏事件,被当事人们偶然拿来并产生了投机想法;
也可能是一个长期存在的现象,已经有了无数的投稿被剽窃,甚至有组织地剽窃。
目前我们只能猜测。但我们知道的是,
投稿被泄露甚至挪用这一事件,破坏了投稿人和审稿人双方之间的信任,对当前的双盲审稿机制是具有很大破坏性的;
剽窃他人的工作,不经掩饰地公开发表,是性质极其恶劣的学术不端事件,对所有努力工作的人而言都是极大的伤害。
我们犹豫过是否要公开曝光这件事,尤其是我本人,在身边朋友一边倒的态度下在努力保持克制,因为我们知道当事人可能是学术新人,这件事可能对当事人造成不可逆的影响。但一方面这不是我一个人的工作,所有人的态度都很重要;另一方面事实证明私下的沟通是没有用的,我们的目的也不仅仅限于撤回 arxiv 文章本身。身边朋友的一句话触动了我们,“犯错的成本不应该这么低”。但我们必须要强调,曝光这件事更重要的意义在于让大家警惕并重视投稿泄露挪用这一现象。
最后,提醒大家平时注意留存证据。每篇学术文章无论是否中稿,背后都是数个人少则几个月、多则几年的心血。我的前leader曾在我投稿不中时安慰我说,“每一篇工作都有属于自己的价值和去处”,我相信没有人愿意让自己辛勤工作的去处是这般模样。
后续
「2021 年 9 月 19 日」
我们已经收到了 NeurIPS 2020 组委会的官方回复,证明审稿人、领域主席、高级领域主席中没有人来自如上机构。另根据其他一些线索,我们初步可以排除来自审稿流程中泄露的可能,相信这个结果可以让广大科研工作者感到些许安慰。
我们已经收到了北京理工大学的官方回复,北京理工大学自动化学院已经成立了工作小组调查此事,我们相信北京理工大学会秉公处理,并期待进一步处理结果。
目前我们已经掌握了一些有价值的线索,出于方便调查的原因暂不便公开。我们期待着事情最终能够水落石出。
本文参考资料
[1]
Label Assignment Distillation for Object Detection: https://arxiv.org/abs/2109.07843
[2]王剑锋:丢弃Transformer,FCN也可以实现E2E检测: https://zhuanlan.zhihu.com/p/332281368
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!