博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
机器学习领域水写论文日常:
△图源推特:AI Memes for Artificially Intelligent Teens
明明想得很美:要提出一个更好的新架构、新损失函数、新优化器或激活函数……
而实际正在做的呢?
在一个数据集上应用现有的东西(如架构,优化器,损失功能),尝试不同的组合以找到该数据集上的最优解。
这就是Reddit上的一位准博士现阶段的烦恼:
他并不满意目前的工作,也不知道自己都做了哪些贡献。
所以帖子标题非常直接:
如何在机器学习领域写论文时保证创新性?
关注现实问题和细分领域
而对于这一问题,下方讨论的网友们基本分为了两类。
第一类认为,不要刻意去追求“创新”,而是先尝试从解决现实问题出发:
一个新想法的出现,通常是为了试图解释一些以前没有解决的问题。
或是这一问题已有方法(但你找到了更好的解决方案)。
现实中确实有很多这样的例子。
比如强化学习领域的很多论文都是集中在游戏上的。
造成这种现象的原因之一,就是大家在一开始都是用较低的成本让模拟器快速运行的。
但慢慢地,这种传统方法就让游戏暴露出了不少问题:
比如,只有在执行了一长串的正确行动(actions)后,你的(强化学习)模型才能得到奖励信号(reward signals)。
像这种实际应用中的困难,很容易就能引申到“要如何解决”或“怎么让现有方法变得更好”上。
那创新点不就来了?
而第二类网友则直接从问题根源入手:
别再在ML大领域里浪了,赶紧选个利基领域 (niche area)上吧。
什么是利基领域?
这是指一个大领域下尚未被其他人所占领的某个专业的小领域,也叫细分领域。
这一类网友觉得,你要在机器学习领域内创新,那就意味着要跟成千上万的科研人竞争,这谈何容易?
所以还不如去一些“过气”的分支领域去试试。
比如30年前在AI领域中流行过的归纳逻辑程序设计(ILP):
当然,这种方法更适用于当你的目标是“获得博士学位就算成功”的时候。
毕竟这样做很可能导致你的引用数常年在个位数打转……
最后就是Just Try it的保留节目了:
就算最后失败了,你也会对相关问题有更深的理解,或产生新的思考。
同时,这也能侧面印证你选择的课题是不是真的有价值:
毕竟对于牛逼的课题,即使失败也是成功的垫脚石。
但如果你完全无法从这次失败中收获新的东西的话——
那还是赶紧跑路另择idea吧。
永恒的难题:idea
其实今天开贴的这位题主所说的“保证论文创新性”,说到底还是一个idea的问题。
而对于广大科研人来说,这是个永恒的话题。
比如说19年时,就有这种“发现自己的idea已经被人发表了该怎么办?”的讨论帖了:
(只听标题都是闻者伤心听者落泪)
大家在下面集思广益了半天,从如何避免撞车,到撞车之后如何扩展强化,再到个人能力培养和学术环境,最后表示:
凑合一下,克服一下,适应一下。
而在去年,来自清华的高天宇同学也在直播中分享了他的idea来源:
这位本科期间就发表过两篇AAAI和两篇EMNLP的大神表示:
idea的形式多种多样,有原创的突破性工作,就像发明衬衫;也有排列组合、迁移、渐进的补充性工作,就像给衬衫装上纽扣和前衣口袋;而灌水就像是在衣服背后缝了个口袋。
今年,甚至有位英国教授专门写了篇论文来指导大家如何写论文:
作者主要从建模前如何准备、如何建出可靠的模型、如何稳健地评估模型,如何公平地比较模型以及如何报告结果五个方面,全面阐述了如何避免机器学习研究中的陷阱。
那么最后,你觉得还有什么保证论文创新性(或寻找idea)的方法呢?
清华特奖高天宇:
https://www.qbitai.com/2020/03/12309.html
如何写一篇不水的机器学习论文:
https://www.qbitai.com/2021/08/27616.html
发现自己的idea已经被人发表了,该怎么办?
https://www.qbitai.com/2019/06/3337.html
参考链接:
https://www.reddit.com/r/MachineLearning/comments/p4pv17/d_how_to_bring_novelty_in_machine_learning/