文本匹配_社区问答(Q-Q匹配问答)文本相似度计算的四类方法

92a8bb0c083adb6e9859655ae0a3a26a.png

本文是我自己的思考。如果有纰漏,欢迎大佬们在评论区怼我,帮助我进步~~

智能问答的其中一类 社区问答(也就是Q-Q匹配问答)的第一个环节是计算问题的文本语义向量表示;第二个环节就是通过向量的匹配得到最佳的问题候选。下面是我知道的做第二个环节的4类方式。(不是四种,而是四类。)

第0种、直接两两做bert

最慢的方式。复杂度是O(n)。每次两两匹配的耗时都要做一次bert(可以转tensorflow的estimator做成实时的)。也是耗时最长的方式。

如果匹配的q-q对较少,是可以直接用bert类的模型直接做两两的文本匹配。

第1种、两两出相似度,取最大

具体方法可以是 余弦、距离 等。复杂度是O(n)。每次的耗时比两两做bert要快。

如果匹配的q-q对的数量适中,可以用这种。(我也不知道多少的量算适中,应该也得看具体情况。)

第2种、用算法的思路降低复杂度

如annoy算法,将“依次计算相似度”转化成“依次做超平面从而构建二叉树”的思路,复杂度O(log(2) n)。并且预测时每次的计算都是将“真实问题”的向量代入超平面,然后判断是正是负,查询“二叉树”,速度比以上两类的速度都快。

适合海量数据。

第3种、用规则先缩小范围,然后再用第一种方式

先构建关键词表,在“真实问题”内查询关键词,再用该关键词在海量“问题候选”中查询到部分的“问题候选”,然后再算余弦相似度。

类似这种缩小范围的方式是开放的,可以看实际项目情况做定制。

欢迎大家指出我的错误,欢迎评论哈~~~

————————————————

首发地址 :社区问答(Q-Q匹配问答)文本相似度计算的四类方法_weixin_38100489的博客-CSDN博客

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值