在问答系统中,或搜索系统中,经常遇到short query。通过找到这些query的相似querie,并用这些query的检索结果,可以有效提高当前short query的检索效果。
方法一:
最常用的方法是利用log信息。在网页搜索中,我们往往利用用户对检索结果的点击和停留时间,作为一种相关反馈信息。
1. 获取所有query被点击的所有文档
2. 拿这些文档训练word2vec
3. 计算查找相似query
这种方法的效果也许不是万能的,但在有的语料上效果还是不错的,需要尝试一下
方法二:
不同query如果指向了相同的doc_id,那么说明这些query之间就有一定的相似度。如果相同的doc_id越多,说明越相关。
方法三:
要获得语义信息,最好还是用类似word2vec的方法(也可以是神经网络训练词向量),可以直接拿所有query直接训练。
方法四:
因为是短查询,可以考虑对没歌词的向量进行累加,然后将类加后的向量作为query的向量。(在做分类方面应该会不错)
但长查询一般不适用这种方法。
有的也将每个词的词向量进行拼接,将拼接后的作为query向量。这样会导致不同query维度不同,一般采取以最大维度为准,补0的方式