自然语言处理领域的两种创新观念

原创 2018年04月16日 11:52:12
 /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

自然语言处理领域的两种创新观念

张俊林
timestamp:2006年11月26日


自然语言处理作为一个研究领域,曾经是一个颇为冷门的方向,但是现在随着互联网搜索概念股的疯狂被投资人追捧,搜索和自然语言处理逐渐成为学术领域的显学。借着感恩节的当口,让我们这些靠自然语言处理技术混饭吃的兄弟们也表达一下感激之情:感谢CCTV,感谢CHANNEL V....不对,排错马屁了。应该是:国际主义阵营感谢GOOGLE,民族主义阵营感谢百度,是你们在纳斯达克上市给了我们这些人混口饭吃的机会,使得我们从吃不饱饭的非洲难民阵营进化到勉强能吃饱的社会主义初级阶段那群人的阵营,顺便还带给我们跨入吃得更好的资本主义阵营的梦想。
其实,真正应该感谢的是互联网,现在互联网的数据实在是太多了,所以现在大家上网面临的问题不是没有信息的问题,而是信息太多找不到自己所需要的信息,这个时候搜索和语言处理就体现出用武之地了。我们需要采取技术手段把过多的嘈杂的信息整理的头头是道,这样网民才能便捷地找到自己想要的东西。所以我个人乐观的认为,随着互联网的发展,搜索和自然语言处理会成为越来越重要的工具。
自然语言处理作为一个研究领域,其成长历程应该说是比较坎坷的。很早的时候,也曾风光过,通俗的说就是:咱也阔过。那时候研究人员都采用规则的方法,就是大家想一些处理规则,然后计算机按照人想的规则去处理文本。开始大家都还是很乐观的,期望自然语言处理能够大师拳脚,很快应用到各行各业。但是现实的残酷很快打碎了人们的美梦,发现现实世界的复杂不是人想出一些规则就能搞定,而且规则多了还会出现规则之间打架的问题。总而言之,自然语言处理(NLP)成为了一个鸡肋方向,食指无味,气质可惜。直到统计方法破石而出,NLP才见到了一丝曙光,并且有渐渐光大门楣,光宗耀祖的趋势。现在统计方法基本上占了所有NLP子领域的山头,
漫山遍插统计大王旗,统计方法应用效果也确实不错。基本上可以进入实用阶段了。

但是,目前NLP学术研究基本上处于发展平台期,就是说大局已定,能做的就是在一些细枝末节的方向上做些修修补补的工作,你去看ACL/COLING这些最高级别的国际会议的论文就知道所言非虚,一个研究领域进入平台期
的标志是:假设你几年不看论文,等想起来去看最新的论文,发现大家还是在一个圈子里面绕来绕去的。现在的研究圈子模式已经变成了:
各种数学模型是一个万能工具箱,研究人员从这个工具箱里面取出不同的工具,然后用这些工具来进行修修补补的工作。场景基本上如下: A博士说了:你用隐马尔科夫分词?那我用隐马尔科夫标注词性;此时又跳出来一位B博士:你们太落后了,居然还在玩隐马尔科夫?我都玩到最大熵了。话音未落,C博士飞起一脚把B博士踢下台去:瞧你那熊样,还最大熵呢?你以为现在才是二十一世纪初啊(B博士敬佩而又无辜的眼光望着台上的C博士,挠着头想:难道现在不是二十一世纪初么),听说过CRF么?我不仅CRF了,我都CRF好几年了。
总而言之,现在NLP研究基本上和补鞋匠的工作有的一拼。就好像用不同型号的胶水来补不同牌子的鞋子一样,看着挺热闹,其实没啥意思在补也不能把一双布鞋补成一双运动鞋,顶多是把一双破布鞋补成看上去不那么破的布鞋而已。有时候,补完一个小洞后又露出一个大洞,只是布鞋匠不说而已。
说说我理解的NLP的两种创新。其实,其他领域估计也差不多,而且,我的看法看起来相当象废话,其实基本上就是废话,世上废话本来就很多,
在多两句也无妨。
一种创新是研究模式的颠覆,这需要大智慧,是所谓的大创新。就像刚开始的规则方法的出现,后来统计方法的一枝独秀,再到最近的大家都嚷嚷要把统计和规则结合起来搞。当然,我个人对两者结合的效果持怀疑态度,因为以我愚钝的智力看不出两者到底有多大的互补性,至于是否真有效那就走着瞧吧。现在需要的是一种完全不同的处理思路,至于是什么,估计谁也不知道,NLP呼唤爱因斯坦。
另外一种创新是应用创新,就是说大家采用的核心技术其实差不多,都那么点货,其实你也不用藏着掖着,你怎么做的外人不知道,内人
还不知道么?这个时候最好的方法是用同样的核心技术做不一样的应用。应用创新可能是目前更加值得关注的创新方法。


至于搜索研究领域,跟NLP处境差不多,基本上是难兄难弟的关系。从最初的内容匹配到后一阶段的链接分析,在之后基本上停留在链接分析上没怎么动过窝,大家一样在从事补鞋的工作。
说道搜索,就顺便谈谈国内的搜索公司,其实百度也好,雅虎也好,包括后起之秀搜狗,奇虎也好。大家用的什么技术估计自己心理都有数,哪个敢跳出来说我有独门秘笈?如果真跳出来了,只能问候一声:骗子你好。除此之外,无话可谈。大家技术上其实都差不多,可能闻道有先后,但是道就是那些道。

自然语言处理领域的两种创新观

     虽然已收藏张俊林博士的这篇文章,但还是决定转载一遍。 自然语言处理领域的两种创新观 张俊林  timestamp:2006年11月26日      自然语言处理作为一个研究领域,曾经是一个颇...
  • clytze2061
  • clytze2061
  • 2011-03-18 09:56:00
  • 1602

自然语言处理领域概述

  • 2017年11月03日 23:36
  • 3MB
  • 下载

如何检索自然语言处理领域相关论文

如何检索自然语言处理领域相关论文
  • u012442157
  • u012442157
  • 2017-08-27 19:38:49
  • 490

自然语言处理领域介绍

1.文字语言VS数字信息      从文字、数字和语言的发展历史可以了解到语言、文字和数字有着内在的联系。数字、文字和自然语言一样,都是信息的载体,他们之间原本有着天然的联系,语言和数学的产生都是未了...
  • ikaros_xiao
  • ikaros_xiao
  • 2013-09-07 19:30:39
  • 1113

循环神经网络RNN在自然语言处理领域的应用

之前看的论文都是基于CNN在NLP上的应用,但其实深度学习与NLP结合的领域中应用最广的应该是RNN,因为文本可以直观地被表示为输入序列,方便的被RNN处理,捕获其Long-Term依赖等信息,而且实...
  • liuchonge
  • liuchonge
  • 2017-04-21 08:58:36
  • 3449

《数学之美》中的自然语言处理

1.      信息的冗余是信息安全的保障。 2.      语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。   现在自然语言处理多用统计语言...
  • sinat_35496345
  • sinat_35496345
  • 2017-02-09 12:30:09
  • 606

深度学习在自然语言处理中的应用综述

本文为译文,原文地址:https://medium.com/@datamonsters/artificial-neural-networks-in-natural-language-processin...
  • lqfarmer
  • lqfarmer
  • 2017-08-23 08:51:30
  • 1343

如何查阅自然语言处理领域学术资料

原文出处:http://blog.sina.com.cn/s/blog_574a437f01019poo.html         昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我...
  • chinaliping
  • chinaliping
  • 2013-10-18 14:27:34
  • 796

自然语言处理(NLP)在企业应用中的实践(一)

在通用的领域,自然语言处理已经进入我们的生活,比如说谷歌有谷歌助手,微软有小娜,它们可以处理一些简单的指令。但是目前为止,还没有看到企业应用领域中广泛应用此项技术。如何将自然语言处理和复杂的企业应用结...
  • qq_35414313
  • qq_35414313
  • 2016-07-02 18:46:21
  • 373

机器学习、深度学习与自然语言处理领域推荐的书籍列表

机器学习、深度学习与自然语言处理领域推荐的书籍列表 是笔者 Awesome Reference 系列的一部分;对于其他的资料、文章、视频教程、工具实践请参考面向程序猿的数据科学与机器学习知识体系及...
  • whywhom
  • whywhom
  • 2017-03-07 16:14:46
  • 466
收藏助手
不良信息举报
您举报文章:自然语言处理领域的两种创新观念
举报原因:
原因补充:

(最多只允许输入30个字)