计算机语言学 自然语言处理程序,利用知网进行(计算机)自然语言处理

本文介绍了自然语言处理在中文信息处理中的挑战及进展,重点讨论了董振东先生创建的知网(HowNet)概念。知网是一个常识知识库,用于描述概念间的关系和属性。文章描述了如何基于知网构建知识库,并设计了API以支持语言排歧和语义相似度计算。此外,也提到了设计中的不足和改进方案。
摘要由CSDN通过智能技术生成

摘要:

自然语言理解,特别是中文信息处理,一直是计算机界的难题.让计算机来理解和处理丰富的自然语言,极具挑战性.自然语言的计算机处理是一个多学科交叉研究领域.来自计算机科学,语言学,数学等不同学科的研究人员构成了目前这一领域的主要研究力量.自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语,英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答. 近十多年来,随着计算机本身以及信息高速公路的飞速发展,中文信息处理开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设.知网的创始人董振东先生在从事多年这方面研究的基础上在中文信息处理中创出新路,提出了知网(HowNet)的概念.知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库.它为语言信息处理的研发提供了丰富的知识资源. 本文根据董先生提出的知网理论和知网的数据文件,设计并建立了一个较为系统的知识库,并在上层利用知网知识库进行汉语言信息处理方面做了初步的研究.对于知识库的设计,即后台的语言知识表示系统,我们采用了程序表示和数据库结合的方法,即采用面向对象的程序设计方法对知识的概念进行表示,同时在数据库中记录词和程序的对应关系.这样在分析自然语言的时候,面对的不再是一些字符编码的组合,而是一个能描述词意义的对象集合.在知识库的基础之上我们还尝试地设计了知识库的API,为上层进行语言排歧和语义相似度计算等自然语言处理提供访问知识库的接口.最后,本文指出了在设计时的不足以及可能的改进方案.

展开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值