语言计算:信息科学技术中长期发展的战略制高点

 

语言计算:信息科学技术中长期发展的战略制高点

(2010-10-10 17:31:25)
标签:

校园

分类: 工作篇

自然语言处理,简单地说,就是用计算机来处理人类的语言(英文、中文等)。由于语言是人类区别于动物的根本标志,没有语言, 人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界(只有当计算机具有处理语言的能力时,机器才可能通过图灵测试)。

自然语言处理带有很强的多学科交叉的性质, 涉及计算机科学、语言学、数学(尤其是统计学)、逻辑学、认知科学等多个领域。针对中文的自然语言处理,也被称作“中文信息处理”。主要研究内容包括:语言计算(语音与音位、词法、句法、语义、语用等各个层面上的计算),语言资源建设(计算词汇学、术语学、电子词典、语料库、知识本体等),机器翻译或机器辅助翻译,汉语和少数民族语言文字输入输出及其智能处理,中文手写和印刷体识别,中文语音识别及文语转换,信息检索,信息抽取与过滤,文本分类、中文搜索引擎,以自然语言为枢纽的多媒体检索,与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究,与语言计算相关的语言学研究等。

中文信息处理(包括对汉语以及少数民族语言的信息处理)在我国信息领域科学技术进步与产业发展中占有特殊位置。历史地看,中文信息处理技术对推动我国信息科技与产业发展的贡献是巨大的。在一定程度上可以这么说,没有王选的汉字激光照排(两次获得国家科技进步一等奖),今天的方正集团就不会存在;没有倪光南的汉卡(获国家科技进步一等奖),也可能没有今天的联想集团;没有汉语拼音方案和王永民的五笔字型输入法,我国社会信息化范围就不会象今天这样广泛;没有刘迎建的汉王汉字输入系统(获国家科技进步一等奖),我们今天使用手机、PDA等就不会这么方便。类似的成功例子还有不少,如施水才的TRS信息检索系统,唐亚伟的速录机(获国家技术发明二等奖),陈肇雄的机器翻译系统(获国家科技进步一等奖)、丁晓青的清华文通汉字OCR系统(获国家科技进步二等奖)等等。这些无一不体现着鲜明的自主创新精神的成果,既是我国中文信息处理事业发展历程的见证,同时也将为其未来的继续蓬勃发展提供了宝贵的精神财富。

我们已经进入以互联网为主要标志的海量信息时代。一个与此相关的严峻事实是,数字信息有效利用已成为制约信息技术发展的一个全局性瓶颈问题。语言信息处理无可避免地成为信息科学技术中长期发展的一个新的战略制高点。《国家中长期科学和技术发展规划纲要》指出,我国将促进“以图像和自然语言理解为基础的‘以人为中心’的信息技术发展,推动多领域的创新”。目前,我们正处于两个基本背景之中:第一,以Google为典型代表的基于信息\知识处理的国际公司的崛起,正在形成比微软有过之而无不及的商业垄断以及对信息\知识有效利用的持续性、战略性控制;另一方面,经过长期的研究积累与技术沉淀,中文信息处理正处于酝酿重大突破的前夜。中文信息处理领域能否并且如何抓住这个新的历史机遇,迎接挑战,在新的历史条件下,发扬优良传统,争取更大光荣,将是在这个领域中辛勤耕耘着的我国科技工作者必须回答的一个重大问题。

清华大学计算机系自然语言处理课题组早在上个世纪七十年代末,就在黄昌宁教授的带领下从事这方面的研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会(全国一级学会)计算语言学专业委员会的挂靠单位。现任学科带头人孙茂松教授任该专业委员会的主任(同时任中国中文信息学会副理事长)。

 


语言计算:信息科学技术中长期发展的战略制高点
清华大学智能技术与系统国家重点实验室
孙茂松

 

一、基于语义的内容计算
随着互联网以及大规模数据存储体系的迅猛发展,人类已经进入名副其实的海量信息时代。例如,著名的搜索引擎Google 的检索范围已达80 多亿张网页,允许对近三十种语言进行搜索(包括英语、主要欧洲国家语言、日语、中文简繁体、朝鲜语等)。人类知识更新的步伐日新月异。据激光打印机发明人GaryStarkweather 博士称:在1750~1950 年中,知识增长的速度是150 年翻一番,而1950~1960 年间,10 年就翻了一番,1960~1992 年间,翻番时间已缩短到5 年。期望到2020 年,信息量每73 天就将翻一番。绝大多数新产生出来的信息都是数字化的,同时旧的信息也正在通过大型的数字图书馆计划不断地在被数字化中。
可以设想,在不远的将来,互联网上将集聚人类有史以来创造的几乎全部知识。
然而,拥有海量数据仅仅意味着人类拥有全面、深入、方便地驾驭这些海量数据中所蕴涵知识的潜在可能性,但可能性与现实性有天壤之别。现实状况是:
目前对海量数据的操作主要还在信息检索阶段,根本谈不上构建于其上的知识组织、总结及分析。即使是信息检索这个比较初级的任务,效果也很不理想:TREC2004 Terabyte Track 的测试结果显示,文本信息检索的最高精度不超过30%。而对声音、图象、视像等的搜索能力就更差了。就目前状况而言,互联网这个知识海洋颇像虚拟世界中巨大无比的“黑洞”,大多数宝物都被默默地埋藏于幽深的海底难见天日,而我们却缺乏有效手段实现随心所欲的“大海捞针”,只好无奈地“望洋兴叹”。人类正面临着一种前所未有的尴尬与困惑的局面:对数字信息利用的有效率极其低下。换个形象的说法, 互联网象个大茶壶,它的壶体正在急剧膨胀,颇有“醉里乾坤大, 壶中日月长”的味道,但茶壶嘴几乎没有扩张,虽然大肚能容,有货却倒不出来。
必须指出,计算机的运算速度、磁盘容量、存取效率、网络带宽等因素与解决这个问题并无实质性关系(著名的摩尔定律指出,计算机的性能每18个月翻一番。目前的发展实际超越了摩尔定律,如3年内图形处理能力提高了100 倍,网络带宽增加了64 倍)。彻底扭转此被动局面的唯一途径是,信息处理必须跨越到基于语义的内容计算。
这一跨越在信息处理的研究与应用两大方面都将是无与伦比的,一旦得以完成,将会导致信息技术出现一场全新的革命,推动人类从虚拟世界的必然王国走进自由王国,其重大意义无论怎么讲都不过分,经济效益和社会效益不可估量:
(1)科学意义:实现以信息为中心的计算(Information-centric Computing)。
放大人类的智能,而非简单地放大人类的工具。
(2)国家基础设施建设:从Web走向互联网发明人暨W3C 主席Tim Berbers
Lee1998年提出的语义Web(虽然笔者认为, 在中近期实现严格意义的语义Web近乎天方夜谈,但其变体,如面向特定应用的小型语义Web 却是可能的),提升信息的质量与系统性,实现知识的有效组织与利用。
(3)国家经济建设:建设与工程体系相配合的、以“软科学”为特征的非工程体系,提供全面、强大的决策支持。
(4)国家安全:敏感信息的准确检测与过滤(例如军事、政治敏感信息)。目前基于IP 地址及基于关键词匹配的策略只能是权宜之计,防不胜防。
(5)人民生活质量与文化素质的提高:网络的各种个性化服务及按需服务。
(6)网络色情的围堵:有效制止其恶性泛滥(已成为网络上的首要公害)。
虽然要圆“基于语义的内容计算”之梦,人类还需要走非常漫长的路,但在这个圆梦之路的不同阶段所产生的一些阶段性重要成果,仍足以促使信息技术发生深刻变革及带动相关产业的升级。
由于自然语言文本占据了互联网的大半河山, 同时,在可预期的将来,对声音、影像、图片的检索仍将严重依赖自然语言分析技术(正如近两年Google 推出的图象与视像搜索引擎所做的那样),语言计算的重要性也就不言而喻了。可以预期,它将无可避免地成为信息科学技术中长期发展的战略制高点。

 

二、目前的主要任务
语言计算是一项长期的艰巨任务,不可能一蹴而就。那么,在现阶段,我们应该抓的主要任务有那些呢?笔者认为,以下诸多方面的研究应该成为我们关心的焦点。
(1)在人工智能、机器学习、数学、语言学等理论交叉指导下,进行面向超大规模文本等真实复杂环境的方法与原型研究。尤其要注意研究算法在这一条件下的性质。
(2)面向互联网的汉语自动分词研究英文的信息处理一起步就是在词平面上。而中文信息处理起步是在字平面上。现有的中文搜索引擎,虽然几乎使都用了汉语分词系统,但由于分词系统的性能存在严重缺陷,导致检索性能不佳,更堪担忧的是,中文搜索引擎将无法向更高级的形态发展。许嘉璐先生曾一针见血地指出:“到目前为止,中文信息处理基本上还停留在‘字处理阶段’,也就是说计算机对汉语的‘认知’是一个字一个字地进行”“如果我们说得‘宽宏’一些,最多可以说现在是处在‘字和词处理之间’阶段”“中文信息处理技术虽然在有些方面有所进步,但至今还没有跨上‘语言处理’这个台阶”。要从字平面跨越到词平面,汉语自动分词是必由之途。观察表明,现有的分词系统对互联网文本的处理能力远远不够。这个貌似简单的任务其实十分困难,不以大工程的态度对待,断无成功之理:
● 建立“信息处理用现代汉语通用分词词表”,与国家标准“信息处理用现代汉语分词规范”相互衔接。这个通用词表将成为构造语义Web 所需的通用ontology的基础。
● 建立各个主要应用领域的分词词表(词数当在数百万级),并制订相关规范。这些领域分词词表将成为各领域ontologies的基础。
● “来自互联网”: 在通用词表与领域词表的支持下,以互联网上的中文文本集合为基本对象,进行汉语分词歧义等的大规模调查,据之设计有效的分词歧义消解算法,并进行新词汇自动发现的研究。
● “面向互联网”: 实现一个可驾御互联网的实用型汉语自动分词系统。研究当分词必然存在一定错误率的条件下中文搜索引擎设计的健壮性问题。
(3)应用驱动的浅层句法分析技术的研究。
(4)借鉴WordNet与HowNet,进行大规模汉语语义资源的整合与建设。并且以之为基础,进行汉语语义计算的研究。
(5)词法、句法、语义一体化的汉语分析模型的研究。
(6)进行领域ontology的研究,并建立一个示范性ontology。制订相关的标准。
(7)研究在海量文本中自动发现词与词之间关系的算法。
(8)研究高精度的汉语文本自动分类算法,建立Web逻辑地图。
(9)将自然语言处理、OCR、语音识别等技术融合于基于内容的图像、视像处理研究中,以显著提高图像和视像的智能化处理能力。
(10)完成对文本、声音、图像和视像均具有很强判断能力的关键性应用系统(典型如色情和军事、政治敏感信息的自动过滤)。
(11)促进大规模语言计算资源共享平台与机制的建设。
(12)将上述成果集成起来,设计并实现实用型工具软件,可以将任意一个普通网站经过若干步深层次处理后自动转换成一个智能型网站,从而被赋予一定的知识管理能力。
(13)建立并完善我们自己的搜索引擎,与Google 抗衡。
(14)在内容计算的基础上,研发各类知识服务系统,如基于Web 的预警系统。

 

三、中文信息处理与中华文化
中国已成为世界上仅次于美国的第二大网络大国。据中国互联网络信息中心《第十五次中国互联网络发展状况分析报告》统计,截止到2004 年12 月31 日,我国网民数量已经达到9400 万,上网计算机总数已达4160 万台,WWW 站点数约668,900 个。中国大陆IP 地址总数已达59,945,728 个。中文网上资源呈雪崩式发展的态势。
于是, 语言计算无可避免地被赋加了更多一层的特殊意义:面向中国人的语言计算, 以确保国民掌控及利用海量中文信息的能力,同时,使中华文化能够借重这种强有力的技术手段,在全球网络一体化,多文明、多文化共存乃至激烈碰撞的考验下,岿然屹立于世界文化之林,并且历久弥新,发扬光大。令人深思的一个例子是,2004 年12 月,Google 宣布将对纽约公共图书馆及四家知名大学图书馆(牛津大学、哈佛大学、斯坦福大学及密歇根大学)的上百万图书进行扫描(含45 亿页文字材料),实现图书内容的网上搜索及浏览。法国人对此作出了强烈反应。他们担心:一旦这个网上图书馆建成,就可能意味着美国的声音将对人
们今后的世界观施加压倒性的影响,而法国曾经创造的优美语言和光辉思想将越来越少为人所知,最终成为被世界遗忘的角落。法总统府在一份声明中写道:“总统先生将与其他欧洲领导人采取行动,以谋求加强在这一领域的协作。当今的世界正在掀起一场知识数字化的革命,拥有独一无二文化遗产的法国和欧洲理应占有一席之地,以便让人们了解欧洲的智慧、历史以及文化遗产”。这也理应成为我们对待中文信息处理的一个新的视角。
(本文发表于《语言文字应用》2005 年第3 期, 第38-40 页

 


中文自然语言处理开放平台4-[课程讲义] 中文自然语言处理的研究现状和发展趋势, (2009-01-11). 5-[应用系统] 基于网络查询的问答系统, (2008-04-21). 6-[会议信息] 第一届全国知网研讨会征文 ...
http://www.nlp.org.cn/
自然语言处理_百度百科自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 ...
http://baike.baidu.com/view/18784.htm
我爱自然语言处理中午在CSDN看到这个不幸的消息:[逝者]自然语言处理大师Fred Jelinek,之后水木自然语言处理版也有nlper转载了英文的相关信息。我读了一下Language Log里的文章,印象 ...
http://www.52nlp.cn/
北京理工大学自然语言处理实验室首页北京理工大学自然语言处理实验室还很年轻,我们希望加大和外界同仁的交流,共同推进中文信息处理技术的提高,也希望有志青年加入我们实验室共同奋斗! ...
http://nlp.bit.edu.cn/
智能技术与自然语言处理研究室哈尔滨工业大学计算机学院智能技术与自然语言处理研究室(ITNLP)是国内较早从事自然语言处理研究的科研团体之一。研究室从八十年代初期以来,先后开展了机器翻译、 ...
http://www.insun.hit.edu.cn/
Natural Language Processing - Microsoft Research - [ 翻译此页 ]Building a computer system that will analyze, understand, and generate natural languages.
research.microsoft.com/en-us/groups/nlp/
欢迎光临HNC自然语言理解处理网站!中国科学院声学研究所主办,介绍HNC知识,报道HNC动态。
http://www.hncnlp.com
自然语言处理导论-课程网页课程名称:自然语言处理导论, 任课教师: 詹卫东* 刘扬王厚峰常宝宝**. 电子邮件:zwd@pku.edu.cn (詹卫东) liuyang@pku.edu.cn (刘扬), 电话:62765810 (办公室) ...
http://ccl.pku.edu.cn/alcourse/nlp/

北京大学计算语言学研究所
http://icl.pku.edu.cn/

0

阅读 (33) 评论 (0) 收藏 (0) 禁止转载 打印 举报
已投稿到:
加载中,请稍候......
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值