find similar queries for short query——找到相似查询

在问答系统中,或搜索系统中,经常遇到short query。通过找到这些query的相似querie,并用这些query的检索结果,可以有效提高当前short query的检索效果。


方法一:

   最常用的方法是利用log信息。在网页搜索中,我们往往利用用户对检索结果的点击和停留时间,作为一种相关反馈信息。

   1. 获取所有query被点击的所有文档

    2. 拿这些文档训练word2vec

    3. 计算查找相似query

    这种方法的效果也许不是万能的,但在有的语料上效果还是不错的,需要尝试一下


方法二:

   不同query如果指向了相同的doc_id,那么说明这些query之间就有一定的相似度。如果相同的doc_id越多,说明越相关。


方法三:

    要获得语义信息,最好还是用类似word2vec的方法(也可以是神经网络训练词向量),可以直接拿所有query直接训练。


方法四:

    因为是短查询,可以考虑对没歌词的向量进行累加,然后将类加后的向量作为query的向量。(在做分类方面应该会不错)

    但长查询一般不适用这种方法。

    有的也将每个词的词向量进行拼接,将拼接后的作为query向量。这样会导致不同query维度不同,一般采取以最大维度为准,补0的方式


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值