text matching

本文章记录关于text matching相关文章的记录:
前提概述:
text matching是一种端到端的文本匹配的算法,主要用与搜索引擎,问答系统等,主要是为了找到与目标文本最相关的文本。如和问题最相关的答案,在搜索引擎中找到与搜索框中关键词最相关的网页等。

MatchPyramid
文章来源:Text Matching as Image Recognition
主要方法:构建文本与文本的相似矩阵,采用CNN对矩阵进行score,score越高的值对应的文本与文本直接相关性越高。
算法架构:输入:两个文本。
1) 基于glove得到两文本的每个词的embedding。
2) 构建两个文本的相似矩阵。
3)把相似矩阵放入两层CNN中。
4)把CNN的结果放入两层的感知机中。
5)获得二分类的score。
相似矩阵的构建方法:
法1:构建Indicator function:

Mij={10if wi=vj otherwise

法2:构建词向量 αi,βj 表示 wi vj 则采用余弦相似性或者点乘的方式表达M即:

Mij=α⃗ Tβ⃗ ||α⃗ ||||β⃗ ||

or

Mij=α⃗ Tβ⃗ 

DRMM(deep relevance matching model)
文章来源A Deep Relevance Matching Model for Ad-hoc Retrieval

point1: 现在的基于deep的文本匹配的大致模型如下:

match(T1,T2)=F(ϕ(T1),ϕ(T2))

其中, ϕ 是关于text的映射函数,通过 ϕ 可以把text进行向量化表示。 F <script type="math/tex" id="MathJax-Element-1200">F</script>函数是对映射之后两文本关联性的打分。

主要方法:主要用于问答相关的长短文本匹配,在进行匹配之前,先对问题文本即短文本进行重构,把embed的向量重构之后得到文本新的表征,再进行匹配。
算法架构:1)query 和 document embedding
2)对query的embedding进行重构
3)query

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值