NLP-文本蕴含（文本匹配）：概述【单塔模型、双塔模型】

u013250861

已于 2022-12-08 14:37:09 修改

阅读量2.5k

点赞数

分类专栏： # NLP/文本匹配

于 2022-02-27 23:54:59 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/123173101

版权

文本蕴含识别 Learning to Rank 自然语言处理排序问题语义推理

关键词由CSDN通过智能技术生成

NLP/文本匹配专栏收录该内容

10 篇文章 2 订阅

订阅专栏

一、什么是文本蕴含识别

文本间的推理关系，又称为文本蕴含关系 (TextualEntailment)，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提（premise），另一个文本作为假设（hypothesis），如果根据前提P能够推理得出假设H，那么就说P蕴含H，记做。这跟一阶逻辑中的蕴含关系是类似的。

例子：
在这里插入图片描述
这个例子中前提P是“A dog jumping for a Frisbee in the snow”，意思一只狗在雪地中接飞盘玩，同时下面给出了三个假设，这三个假设中前提跟第一个是蕴含关系（entailment），因为这句话描述的是“一个动物正在寒冷室外玩塑料玩具”，这是能够从前提推理出来的；第二句化描述的是“一只猫…”，这跟前提是冲突的（contradiction）；第三句话与前提既不是蕴含关系也没有冲突，我们把它定义成中立的（neutral）。

文本蕴含识别（Recognizing Textual Entailment，RTE）主要目标是对前提和假设进行判断，判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本分类的问题，在上面这个例子中是一个三分类的问题，label分别为entailment，contradiction，neutral。

二、文本蕴含识别数据集

Learning to Rank: pointwise、pairwise、listwise
LTR（Learning to rank）是一种监督学习（SupervisedLearning）的排序方法，已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数，按照相关度进行排序。然而，影响相关度的因素很多，比如tf，idf等。传统的排序方法，很难融合多种因数，比如向量空间模型以tf*idf作为权重构建相关度函数，就很难利用其他信息了，并且如果模型中参数比较多，也会使得调参非常困难，而且很可能会出现过拟合现象。LTR采用机器学习很好地解决了这一问题。机器学习方法很容易融合多种特征，而且有成熟深厚的理论基础，并有一套成熟理论解决稀疏、过拟合等问题。

参考资料：
自然语言推理-文本蕴含识别简介
 FAQ检索式问答系统及文本匹配计算
 文本匹配方法 paper笔记
 丁香园在语义匹配任务上的探索与实践
 蚂蚁金融NLP竞赛——文本语义相似度赛题总结
 匹配网络(Learning to Rank、单双塔模型)