本文章记录关于text matching相关文章的记录:
前提概述:
text matching是一种端到端的文本匹配的算法,主要用与搜索引擎,问答系统等,主要是为了找到与目标文本最相关的文本。如和问题最相关的答案,在搜索引擎中找到与搜索框中关键词最相关的网页等。
MatchPyramid
文章来源:Text Matching as Image Recognition
主要方法:构建文本与文本的相似矩阵,采用CNN对矩阵进行score,score越高的值对应的文本与文本直接相关性越高。
算法架构:输入:两个文本。
1) 基于glove得到两文本的每个词的embedding。
2) 构建两个文本的相似矩阵。
3)把相似矩阵放入两层CNN中。
4)把CNN的结果放入两层的感知机中。
5)获得二分类的score。
相似矩阵的构建方法:
法1:构建Indicator function:
法2:构建词向量 αi,βj 表示 wi 和 vj 则采用余弦相似性或者点乘的方式表达M即:
or
DRMM(deep relevance matching model)
文章来源A Deep Relevance Matching Model for Ad-hoc Retrieval
point1: 现在的基于deep的文本匹配的大致模型如下:
其中, ϕ 是关于text的映射函数,通过 ϕ 可以把text进行向量化表示。 F <script type="math/tex" id="MathJax-Element-1200">F</script>函数是对映射之后两文本关联性的打分。
主要方法:主要用于问答相关的长短文本匹配,在进行匹配之前,先对问题文本即短文本进行重构,把embed的向量重构之后得到文本新的表征,再进行匹配。
算法架构:1)query 和 document embedding
2)对query的embedding进行重构
3)query