通过扩展词汇重叠的文本蕴涵

本文提出了一种利用词汇重叠的文本蕴涵系统,通过WordNet词汇链计算术语相似度,并结合否定检测和词汇编辑距离,实现文本蕴含判断。系统在Pascal RTEII数据集上达到62.8%的准确率,为进一步的改进提供了方向,如探索基于网络的相似性和同位检测等技术。
摘要由CSDN通过智能技术生成

原文题目及作者

Textual Entailment Through Extended Lexical Overlap
Rod Adams
Human Language Technology Research Institute
University of Texas at Dallas
Richardson, Texas

摘要

本文提出了一个主要基于词汇重叠概念的文本蕴涵系统。该系统从一个单词相似性重叠度量包开始,该度量包从WordNet词汇链的组合中导出,以形成假设中的术语到源文本的映射。然后,它查找映射中未找到的否定,以及映射的词汇编辑距离。然后将这些项目输入到决策树中,以确定总体蕴涵。

模型:

在这里插入图片描述
The accuracy of the system on the Pascal RTE II cor-
pora is summarized in Tables 1 and 2. Confidence
scores can be taken from the probabilities in the de-
cision tree, but offer insignificant gains and will not
be discussed here. Overall, this system achieves an
accuracy of 62.8%. Detailed analysis of results on a
per feature basis is given below.

改进的途径

词汇链除了(赫斯特和圣昂格,1998),还有其他几种通过词汇链计算术语相似度的方法。技术的合理比较可以在(Budanitsky和Hirst,2001),他们发现(姜和康拉特,1997)和(林,1998b)是强有力的措施。基于网络的相似性作为在该系统和其他系统中使用的简单网络搜索页面计数的替代方案,值得考虑从互联网构建令牌相似性度量的方法,例如(林,1998a),或红外技术,例如(-耶茨和里贝罗-内托,1999)。同位检测增强编辑距离度量,以便能够在计算间隙时忽略同位,这有助于解决这种现象产生的假阴性。

结论

本文提出了一个预测两个段落之间的文本蕴涵的系统,其准确性优于总是选择真或假的基线。忠于它的目标,这个系统仍然非常简单,唯一的外部依赖是几乎无处不在的WordNet。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值