以Attention Model为例谈谈两种研究创新模式

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/
                                                     author: 张俊林      

 

 

 

各位观众朋友好,也许此刻您刚打开电梯…….读这一篇之前,请您最好先拜读一下本篇的前传:文本处理中的Attention Model:是什么及为什么。因为那里有些背景知识需要交代。

 

话接上回书,在研读AttentionModel相关文献过程中,我再次深切感受到了科研中的两种创新模式:模型创新与应用创新。若干年前,也就是在我年轻不懂事的花样年华里,具体而言,就是在科学院读博士的后期,这种感受就已经比较明显,所以曾经在2006年写过一篇博客:自然语言处理领域的两种创新观念。当时谈的相对务虚一些,而且由于年富力强,少不经事,更强调重大计算模型的创新,曾经对当时横扫NLP大多数领域的CRF式应用创新深感失望(当然我承认我连应用创新都做不好,所以主动撤出了科研界去工业界卖苦力,不加上这一句估计作者本人会被喷得狗血淋头^@@^)。而深度学习其实就是重大的模型创新,在DL汹涌澎湃的大潮下,今天再来谈一谈这两种创新模式,而且目标更聚焦一些,我们就以AM模型的研究过程来看看,我觉得AM的研究还是非常典型能明显说明这个问题的,当然这是个普遍现象,从AM来谈只是作为典型例子而已。

 

首先把文本处理领域里面采用AM模型的论文尽量找全,这个倒是不难,因为AM被关注也就是最近1年里的事情;然后分析下每个论文的创新点,再梳理下相互之间的关系,其实很容易看出隐藏在后面的这两种创新模式。掌握这种模式对于做研究是很有帮助的,因为这代表了创新里的一种固定的研究或者说是思维模式。就是说如果有这种意识,其实你很容易指导自己如何在现有工作基础上去想创新思路,而不至于一说创新就感到很茫然。

 

应用创新

 

应用创新相对模型创新来说简单一些,核心思想就是:如果有一个新模型,那么我就拿来试试不同的领域问题,看看能不能解决,如果能解决,那么这就是一种典型的应用创新。说得不好听点就是说手里有把锤子,那就把很多问题看作钉子,然后到处敲敲,看看是不是能把钉子砸到地里面。其实也没什么好听不好听的,因为非理论学科比如NLP,你看到的相当多数论文,哪怕是顶级会议的论文,其实都是这种类型。这种创新的价值主要是能够证明:某个现成的模型应用在某个领域是有效的。其实我们这些在公司食堂里吃饭的人更偏爱这种类型的论文,因为简单粗暴对口,对我们来说,能简单方便可行地解决手上问题的论文就是好论文。

 

下面我们拿AM模型研究来具体说明下这种创新模式。

 

上一篇介绍AM模型的文章已经讲了AM的基本思路,那里提到的模型一般被称作Soft Attention Model,是很通用的,目前大多数使用AM模型的场景其实都是这个模型的应用或者模型变体。

 

论文[1]“Neural machine translation by jointly learning to align and translate”是首先把Soft Attention Model使用到机器翻译的论文,后面的NLP领域使用AM模型的文章一般都会引用这篇论文,但是这篇论文的思路也是从图像处理领域里的AM模型借鉴到MT领域的,所以也是典型的应用创新。就是说看到AM模型在图像处理领域有用,那么拿来做下机器翻译

  • 57
    点赞
  • 74
    收藏
    觉得还不错? 一键收藏
  • 21
    评论
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值