《中国人工智能学会通讯》——7.17 篇章语义分析方法概述

本文概述了篇章语义分析的三个主要研究方向:以篇章结构为核心,以词汇语义为核心,以背景知识为核心。其中,修辞结构理论(RST)、篇章图树库(Discourse GraphBank)和宾州篇章树库理论(PDTB)是篇章结构分析的代表,而词汇链理论和中心理论关注词汇层面的语义关联。Wikipedia等在线百科资源被用于提供背景知识,实现语义分析。尽管存在挑战,如资源局限性和语义识别难度,这些方法在理解和表示文本语义信息方面表现出潜力。
摘要由CSDN通过智能技术生成

7.17 篇章语义分析方法概述

篇章语义分析主要有以下三个主流的研究方向。

以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系,例如条件关系、对比关系等,亦称为修辞关系识别。根据是否需要将文本分割为一系列彼此不相交的覆盖序列,可以将本类方法进一步分成两大类:第一类以修辞结构理论(RhetoricalStructure Theory) 和 篇 章 图 树 库(DiscourseGraphBank)为代表,要求先将文本切分为彼此不相交的语义单元,并随后分析各部分之间的语义关系及结构组成;第二类方法以宾州篇章树库理论(Penn Discourse TreeBank)为代表,不需要预先切分文本,而是直接识别篇章关系及其元素所在位置,并随后识别具体的语义关系类型。修 辞 结 构 理 论 (RST,Rhetorical StructureTheory,) 最早由 Mann 和 Thompson 在 1988 年发表的论文[1]中提出。除 Mann 和 Thompson 在该方向持续发表相关工作论文之外,Marcu 在其论文中对 RST 理论进行了分析,并持续探索该方向,提出两种基于 RST 理论分析的文本处理方法[2] :① 识别提示短语(CP,Cue Phrases),然后将整句打散成若干个子句;② 为无结构的文本建立一个有效的修辞结构树。RST 理论以文本结构为分析对象,从小单元之间的连接关系开始,逐步延伸到自然语言段落和完整的语篇。RST 在汉语中的跨语言可转移性有特殊的背景。可惜,虽然有不少对RST 的中文介绍和初步应用计划等,但实质性的发展应用很少。

目前,山西大学李茹教授的团队正在尝试进行中文 RST 树库的构建工作,所产出的资源已经具有一定规模,非常值得期待,只是尚未有公开的成果发表。因此,RST 理论现在在中文尚没有一套完整可用的系统或理论,应用难度较高。篇 章 图 树 库(Discourse GraphBank) 最 初由 Wolf et al [3] 提出。该理论认为,相比于树结构,篇章更适合于表示为图。在最初的文章中,他们详细讨论了图表示与树表示的差别,并构建了一个由 135 篇文档构成的篇章树库资源。他们提出,图表示允许将文章中的不同内容以更自由的形式表示出来,从而可以尽可能地获取丰富信息。

关 于 Discourse GraphBank 与 RST DiscourseTreeBank 的区别可详见文献 [3]。宾 州 篇 章 树 库 理 论(Penn DiscourseTreebank)是宾州大学的研究人员采用的一种以词汇为中心的方法[4] ,在句子级的 Penn TreeBank树库的基础上࿰

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值