自然语言理解技术及其应用探讨

本文深入探讨自然语言理解技术,从语言处理理论到实际应用,包括机器翻译、语义理解及人机会话技术。文章介绍了自然语言处理的发展阶段,如特殊格式系统、以文本为基础的系统、有限逻辑系统和一般演绎系统,并讨论了中国在此领域的研究状况,特别是HNC理论。此外,文章还阐述了自然语言理解在搜索引擎中的应用,如何提升搜索的智能化和人性化,以及与传统搜索技术的比较优势。
摘要由CSDN通过智能技术生成

随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。

现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。

第一部分 了解自然语言理解技术
自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。

自然语言处理研究在电子计算机问世之初就开始了,并于 50年代初开展了机器翻译试验。当时的研究方法还不能称作带有"智能"。到了60年代乔姆斯基的转换生成语法得到广泛的认可,生成语法的核心是短语结构规则,分析句子结构的过程就是利用规则自顶向下或自底向上的句法树生成过程。

由于认识到生成语法缺少表示语义知识的手段,在70年代随着认知科学的兴盛,研究者又相继提出了语义网络、CD理论、格框架等语义表示理论。这些语法和语义理论经过各自的发展,逐渐开始趋于相互结合。到80年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法(LFG)、功能合一语法(FUG)和广义短语结构语法(GPSG) 等。

这些基于规则的分析方法可以称之为自然语言处理中的"理性主义"。现有的手段虽然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语言现象,特别是对于整个段落或篇章的理解还无从下手。

与"理性主义"相对的是"经验主义"的研究思路,主要是指针对大规模语料库的研究。语料库是大量文本的集合。计算机出现后,语料可以被方便地存贮起来,利用计算机查找也很容易。随着电子出版物的出现,采集语料也不再成为困难。最早于60年代编制的Brown和LOB两个计算机语料库,分别具有100万词次的规模。进入90 年代可以轻易列举出的语料库有几十个之多,象DCI、ECI、ICAME、BNC、LDC、 CLR等,其规模最高达到109数量级。

对语料库的研究分成3个方面:工具软件的开发、语料库的标注、基于语料库的语言分析方法。采集到以后未经处理的生语料不能直接提供有关语言的各种知识,只有通过词法、句法、语义等多层次的加工才能使知识获取成为可能。加工的方式就是在语料中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。随着标注程度的加深语料库逐渐熟化,成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作,如根据从已标注语料中总结出的频度规律可以给新文本逐词标注词性,划分句子成分等。

语料库提供的知识是用统计强度表示的,而不是确定性的,随着规模的扩大,旨在覆盖全面的语言现象。但是对于语言中基本的确定性的规则仍然用统计强度的大小去判断,这与人们的常识相违背。这种"经验主义"研究中的不足要靠"理性主义" 的方法来弥补。两类方法的融合也正是当前自然语言处理发展的趋势。

自然语言理解系统的发展阶段
自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。

第一代自然语言理解系统又可分为四种类型:

(1)特殊格式系统
早期的自然语言理解系统大多数是特殊格式系统,根据人机对话内容的特点,采用特殊的格式来进行人机对话。1963年,林德赛(R.Lindsay)在美国卡内基技术学院用IPL-V表处理语言设计了SAD-SAM系统,就采用了特殊格式来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据库,可接收关于亲属关系方面的问题的英语句子提问,用英语作出回答。1968年,波布洛(D.Bobrow)在美国麻省理工学院设计了STUDENT系统,这个系统把高中代数应用题中的英语句子归纳为一些基本模式,由计算机来理解这些应用题中的英语句子,列出方程求解,并给出答案。六十年代初期,格林(B.Green)在美国林肯实验室建立了BASEBALL系统,也使用IPL-V表处理语言,系统的数据库中存贮了关于美国1959年联邦棒球赛得分记录的数据,可回答有关棒球赛的一些问题。该系统的句法分析能力较差,输入句子十分简单,没

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值