摘要:
自然语言的计算机处理是一个多学科交叉研究领域.来自计算机科学,语言学,数学等不同学科的研究人员构成了目前这一领域的主要研究力量.随着计算机应用的日益普及,其功能也从主要是数值计算发展到数值计算和信息处理并重.自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语,英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答.目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动. 目前自然语言理解的研究程度还远远没有达到这个要求,还处在努力让计算机正确的理解语言信息上.目前对于自然语言理解的研究主要有基于语料库的统计方法和基于规则的语义处理方法.这两种方法都取得了不少的成绩.不过,最终它们都需要依赖可靠的语言知识驱动计算机正确地处理自然语言,由此可见后台语言知识表示的重要性. 本文提出了一个粗略的自然语言处理模型并在后台语言知识库和文章知识提取方面做了初步的研究.对于知识库的设计,即后台的语言知识表示系统,我们采用了程序表示和数据库结合的方法,即采用面向对象的程序设计方法对知识的概念进行表示,同时在数据库中记录词和程序的对应关系.这样在分析自然语言的时候,面对的不再是一些字符编码的组合,而是一个能描述词意义的对象集合.该知识库能够实现现阶段对语言知识驱动计算机分析的需要.在知识库的基础之上我们还尝试地做了文章知识的提取,提取后的知识表示为对象集的形式,根据对象集,能够回答出一些简单的问题.最后,本文指出了在设计时的不足以及可能的解决方案.
展开