【文本匹配】概述

文本匹配是NLP中的重要基础任务,宽泛的讲,任何评判两句话之间关系的问题都可视为文本匹配问题。其应用领域包括但不限于:

(1)句子相似度(sentence similarity)/句子复述(paraphrase identification)

判断两段文本是否为含义相同,这是一个典型的二分类问题

(2)然语言推理(Natural Language Inference)/文本蕴含识别(Textual Entailment)

判断【前提文本A】(premise)和【假设文本B】(hypothesis)是否构成语义上的推理/蕴含关系。以Stanford Natural Language Inference数据集为例,若可以从文本A推理出B为真,则称文本A蕴含了B;若可以从文本A推理出B为假,则称文本A与B相互矛盾;如无法推理出B的真伪,则称A和B相互独立。

(3)问答匹配(answer selection)

问答系统在召回后的reranking(包括粗排和精排)本质上属于learning-to-rank问题,通过point-wise、pair-wise和list-wise等排序设计,可将其转换为q-q或q-a的文本匹配问题。

(4)对话匹配(response selection)

对话匹配的整体逻辑与回答匹配相近,但由于引入了前序多轮次的utterance,其对于语义信息的捕捉和上下文管理要求更高。

(5)信息检索(information retrival)

在信息检索领域,传统的TF-IDF、BM25等term level的检索算法具有高效的检索效率和不错的召回效果。但query-title, query-doc本质上仍可视为文本匹配问题,所以将其转换为分类或排序问题利用深度文本匹配算法进行语义层面的解析也是一种重要的思路。

(6)其它问题

许多其它NLP任务也可以转变为文本匹配问题,如:

  • 实体消岐问题,可以转换成两个实体上下文文本pair间的匹配问题
  • 机器阅读理解问题:可以拆解为document片段与question文本间的匹配问题

从文本匹配问题解决方案的发展历史来看,可概括为三个阶段:

阶段一:统计学习

通过人工/统计方式获取文本特征,然后比较文本对间的相似程度,其典型做法包括但不限于:

(1)基于字符串操作,如编辑距离等评估相似程度‘’

(2)统计term数,直接利用Jaccard、MI、GLUE等统计学指标计算两者间的相似性;

(3)通过BOW、TF-IDF、BM25等编码得到文本信息的向量,然后通过内积或夹角余弦方式或经过后续的分类器(如LR、NB和SVM等)得到文本相似性;

(4)利用矩阵分解分解主题模型等方法,将文本转换为主题空间的向量,再比较相似性。

这种方法虽然在推断层面效率很高,但存在着人工特征定义困难、句法和语义内涵不足、方法泛化能力不足等问题,因此总体性能并不高。

阶段二:深度学习

随着深度学习技术应用的成熟,文本匹配进入深度匹配阶段,利用各种编码器和模块自动提取文本自身以及文本间的交互信息,实现端到端的文本匹配目的。简而言之,使用深度学习进行文本匹配有两大主流范式:

  1. 表示型的匹配模型(representation)

其分为两个步骤:

(1)分别单独获取文本pair的表示向量,一般通过CNNs、RNNs等编码器获取文本的语义表征;

(2)对上述向量组求解相似度,具体求解可以使用内积、夹角余弦、欧氏距离等显式方法,或更通用的MPL、CNN等神经网络层。

基于表示的方法在最开始对各句子向量的提取过程是独立的,不会彼此交互信息。其优点在于可以通过学习获取语义空间的抽取器,从而在推断阶段可直接获取对应pair的文本表征,像q-q、t-t这种对称问题普遍采用Siamese结构从而实现语义空间的统一,而对于q-d这些非对称问题也可以采用单独的抽取器予以区分。但其缺点也非常明显:在获取单独句子的表征中可能会有信息损失,从而将误差延续到后面的相似度计算中。而交互型的就能够很好的解决该问题。

  1. 交互型的匹配模型(interaction)

交互型的模型匹配方法提前了文本pair间的交互过程,可以选择在word-embedding或者text-embedding等环节,通过Attention、Compare等多种方式进行文本间的信息的交互,在最后得到的聚合向量的基础上完成文本匹配关系结果。

相较于表示型的模型,交互型的模型架构能在各颗粒度上对文本pair的关系进行捕捉,但缺点在于并没有得到单个句子语义空间的统一表示,因此在推断阶段仍只能对整个pair进行交互进行。

阶段三:Bert阶段

在Bert模型被提出来之前,关于表示型的匹配模型和交互型的匹配模型孰优孰劣的对比一直有过争论,但bert的出现实现了当前文本匹配深度模型当前暂时的统一。

Bert类的模型中采用的self-attention机制能从word-embedding阶段就开始交互获取各token间的信息,因此其对于语义的捕捉能力相较于前面提及的传统表示型/交互型深度匹配模型更为强大。而Bert中自带的NSP任务就是文本匹配任务的一类,这也使得其基于海量数据的预训练结果在各类文本匹配任务测试中均如鱼得水,取得了SOTA的结论。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值