面向语言学的计算机,科学网—我们的选择与未来:计算语言学硕士的方向 - 李斌的博文...

应评论要求,贴上2008年写的老文一篇

---------------------------------------------------------------

一 我们的选择

也许每个人都有迷茫的时候。但是,对于一个硕士生而言,不应该再迷茫了。高考是一个混乱的十字路口,我们没有选择就懵懂地闯进了某所高校、某个专业。也许彷徨,也许无奈,图书馆的书、大师的讲座、斑斓的文娱活动……4年的生活和思考,是成长,是学会选择,学会一些技能的年代。考研,就是自己的选择,选择自我成长的未来。

二 我们的专业

计算语言学是一门年轻的学科。国内外很多高校都把它设置在计算机系,作为人工智能的一个分支学科。但计算语言学不光是会计算机,袁毓林曾经做过一个很好的区分:是利用语料库、计算语言学为本体研究服务,为汉语教学服务(母语的和对外的),还是面向中文文本的、语音的、中文操作系统的、具体应用软件的等等应用性质的,还是发展计算语言学本身的理论和技术的。个人认为,文学院下面的计算语言学与计算机系最大的不同就是要强调为语言学服务,为语言文字工作服务。当然不只是服务,我们拥有自己的理论和方法,也许要主动地去建设理论和方法。自然语言处理离不开语言学,但现有的语言学成果难以形式化,实现计算。因为,过去的研究是面向人的,而不是计算机。比如马真老师讲“也”表示“类同”,学界认为非常精彩,外国和中国学生都很能容易理解。但是,“类同”这个词是很难让机器去理解和计算的。中国20年的信息处理研究历程证明,所谓的语言学家和计算机专家结合的研究路子已经失败了。两者1+1!=2。因为计算语言学有着自己的特性,它要求研究者必须同时拥有广阔的知识背景,尤其是在语言学和计算机技能方面。拥有对语言的感悟和理解是语言计算的基础,这不同于其他的与计算机技术相结合的领域。如地理信息系统、生物学、医学方面的计算等等。因为语言是一个不求诸物,反求诸人的东西。语言与思维的密切联系,语言的变化性、变异性,内省性等等都不为人们所把握和确知。计算机技能则是我们对于语言学的现代化、科学化、精密化,还不只这些,也许更是革命化。说一个有趣的例子,Chomsky当年提出的形式文法,影响了语言学界和计算机学界,那么他在计算语言学界应该享有崇高的地位。而实际上,他更是作为语言学家的身份出现,没有继续从事语言的可计算性研究,而是走向了寻找普遍语言原则与具体语言参数的道路上。同时,他反对语料库的研究,崇尚内省的方法。换句话说,我认为,Chomsky带来的并不是一场革命,而是洪堡特式的理论语言学思想与美国结构主义方法的一个碰撞,碰撞的其他动因还有心理学、逻辑学的发展。可是Chomsky的数学并不好,从传记中就可以看出他接触高等数学比较晚,而且没有花太多的工夫去学。虽然50年代就已经有了机器翻译研究,显然乔氏并没有参与其中。他的研究路子虽有特色,却也是一种反动。演绎法的应用,缺乏对语言材料的充分描写,对“语言的形式表示”成了受限于内省的句子表示。另一个例子是赵元任,文理兼通的语言学大师。我一直想知道1950年以后计算语言学的出现对这位语言学家的影响。身居美国语言学会会长的他不可能对这方面的发展一无所知。而且赵先生多才多艺,兴趣极其广泛,在他的论著中却找不到计算语言学的影子(也许是我没有看到)。当今活跃在国内外的计算语言学家几乎清一色地是理工科背景的学者,虽然他们为学科的发展和各种实际应用作出了巨大贡献,但偏激一些看,他们普遍缺乏对于语言的理解,计算语言学的进展更多地是从机器学习、模式识别的发展中获益。其自身的理论建构与方法的特色一直没能凸现出来。计算语言学的很多基本的问题没有得到回答,统计方法的大量应用缺乏论证和对问题的适应性考察,还有很多可以计算的方面没有涉足或效果很差。因此,计算语言学大有可为,以后的路还很长。

+南京师范大学语言学及应用语言学专业简介及报考指南(2017)

三 研究方法

近些年来,机器学习方法在计算语言学界大有滥用之势。理工科背景的研究者也成为主力军。但是这并不是一个坏现象,这是学科发展的前期,多一些混乱和借用没有关系。不过,文理科的研究者不约而同地渐渐地形成了一种比较成熟的研究路子。那就是

问题定义-〉文本(语料)调查-〉识别策略-〉算法实验及确定-〉研究成果

我还不确知这是什么时候,哪些学者提出的方法,但确实是一种面向特定研究课题的有效研究思路。语料调查的环节非常重要,不仅可以看出课题的价值,更可以得到课题的特性和解决的方法。

除此之外,面向信息处理的语言理论研究也已经提上日程。在中文信息处理方面,词的界定、词类的划分、句法分析的方法都在不断地研究和重构。因为寻找一种优秀的语言的形式化表示方法非常不易(这也是Chomsky的主要工作之一)。对语言刻画好了,才能实现较好的计算。语言的词汇化研究视野,即乔氏的“大词汇,小语法”的思想愈来愈重要,在计算语言学界称为“词例化”或“词例知识”的研究路子。意即,语言是复杂的,在词汇层面上看,词语虽可以分类,但是词语之间都是存在差别的,几乎不存在意义和用法完全相同的词语,词类信息对于词语的共性具有一定的概括,同时也损失了词语的某些个性,因此导致语法规则的复杂化。简化语法规则,让词汇充当琐碎的语言现象的承担者是一种很好的研究方法,也更贴近于语言本身。这方面最具特色的研究,应该是我们尊敬的导师陈小荷教授提出的完全从句法功能的角度进行词类的划分。这将很可能引起在词性标注、句法分析上的重大突破。

综上,我们学科的而不是服务于其他学科的研究目标大致有两条:一个是面向基础理论的词汇化研究;一个是面向具体问题的调查实验研究。研究思路会有相应差别。当然,还有语料库建设和基于语料库的研究,不过只是研究的一种工具和方法,而非本学科的大的理论问题。

四 学习方法

计算语言学需要较多的知识背景和技能。个人认为,应该修习以下方面的课程:

语言学:现代汉语、中西方古代语言学史、现代语言学史、语言学理论与方法、词汇学、句法学、语义学、语用学等

计算机相关:人工智能、现代逻辑、模式识别、数据结构

数学:高数、概率论与数理统计、离散数学、线性代数

计算语言学:中文信息处理概论

另外要参加学术会议,阅读学术期刊,了解学术动态。

当然,一开始做研究不可能拥有所有这些知识,陈老师反复说过“学习是一辈子的事,不可能等什么都学完了才开始研究”。研究也是一种学习。我们可以先从比较小的问题入手,趟着水过河。一方面,可以就平时学习的小问题展开研究,阅读相关文献,如果前人搞得很清楚了,那么我们就相当于学习了专业知识;如果觉得前人研究有问题,那么就可以大干一场了。另一方面,可以从导师那里获得题目展开研究。其实,研究问题会随着研究的推进而不断重新认识问题。一开始提出的很可能是一些“伪问题”,却可以随着研究而发现相关的其他问题,从而深化、重述问题。

另外,每个人的知识背景不同,需要补充学习的东西也不同,每个人都应该有着自己独特的学习方法。我觉得,充满个性而不失严谨的学术研究风格是学术发展的原动力。

五 结语

我是一名计算语言学的学生,一直在对这些问题的进行思考,也不断有学弟学妹的询问。于是,把自己几年来的感悟汇成一篇短文,聊以交差。

转载本文请联系原作者获取授权,同时请注明本文来自李斌科学网博客。

链接地址:http://blog.sciencenet.cn/blog-39714-35885.html

上一篇:诗人?

下一篇:科学与情感

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值