find similar queries for short query——找到相似查询

最新推荐文章于 2023-12-22 02:23:09 发布

DearDreaming

最新推荐文章于 2023-12-22 02:23:09 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/DearDreaming/article/details/52181944

版权

在问答系统中，或搜索系统中，经常遇到short query。通过找到这些query的相似querie，并用这些query的检索结果，可以有效提高当前short query的检索效果。

方法一：

最常用的方法是利用log信息。在网页搜索中，我们往往利用用户对检索结果的点击和停留时间，作为一种相关反馈信息。

1. 获取所有query被点击的所有文档

2. 拿这些文档训练word2vec

3. 计算查找相似query

这种方法的效果也许不是万能的，但在有的语料上效果还是不错的，需要尝试一下

方法二：

不同query如果指向了相同的doc_id，那么说明这些query之间就有一定的相似度。如果相同的doc_id越多，说明越相关。

方法三：

要获得语义信息，最好还是用类似word2vec的方法（也可以是神经网络训练词向量），可以直接拿所有query直接训练。

方法四：

因为是短查询，可以考虑对没歌词的向量进行累加，然后将类加后的向量作为query的向量。（在做分类方面应该会不错）

但长查询一般不适用这种方法。

有的也将每个词的词向量进行拼接，将拼接后的作为query向量。这样会导致不同query维度不同，一般采取以最大维度为准，补0的方式

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DearDreaming

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性

丨汀、的博客

07-01

425

语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性

语义检索-BAAI Embedding（bge-large-zh-v1.5）语义向量模型深度解析[0]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性

最新发布

丨汀、的博客

07-01

1412

语义检索-BAAI Embedding（bge-large-zh-v1.5）语义向量模型深度解析：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性

参与评论您还未登录，请先登录后发表或查看评论

相似度搜索

hnsdgxylh的专栏

04-23

707

很多场景种，需要搜索相似的图片，常见的有Phash，特征点检测特征点检测一般将图片归一化相同尺寸，求ORB等特征点的欧式距离详情可以加Q 2830025146 ...

Data Mining & Machine Learning 之Document Query文档相似度（五）

刘滨浩的博客

01-29

932

从0到1，了解NLP中的文本相似度

weixin_33691700的博客

02-27

302

本文由云+社区发表作者：netkiddy 导语 AI在2018年应该是互联网界最火的名词，没有之一。时间来到了9102年，也是项目相关，涉及到了一些AI写作相关的功能，为客户生成一些素材文章。但是，AI并不一定最懂你，客户对于AI写出来的文章，多少是会做些修改的。为了更好的衡量出AI文章的可用度，在这儿就会需要存有一个反馈的环节，来看看...

flask 第六章人工智能百度语音合成识别 NLP自然语言处理+simnet短文本相似度图灵机器人...

weixin_34121304的博客

04-16

400

百度智能云文档链接 :https://cloud.baidu.com/doc/SPEECH/index.html 1.百度语音合成概念: 顾名思义,就是将你输入的文字合成语音,例如: from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '16027154' API_KEY = '5a8u0aLf2SxRGR...

安卓学习-自动匹配文本

ZeroLH00的博客

06-18

672

自动匹配文本在百度搜索时经常会出现输入一般时，下拉框自动匹配了几条符合期望的信息以供选择，这就是自动匹配文本在安卓中自动匹配文本有单一匹配和多重匹配单一匹配是只匹配一次，多重可以通过分隔符多次匹配单一匹配通过AutoCompleteTextView 多重匹配通过MultiAutoCompleteTextView 俩种实现方法差别不大所以一起实现实现过程步骤1: 编...

PostgreSQL 实时高效搜索 - 全文检索、模糊查询、正则查询、相似查询、ADHOC查询...

weixin_34137799的博客

12-05

1256

标签 PostgreSQL , 搜索引擎 , GIN , ranking , high light , 全文检索 , 模糊查询 , 正则查询 , 相似查询 , ADHOC查询背景字符串搜索是非常常见的业务需求，它包括： 1、前缀+模糊查询。（可以使用b-tree索引） select * from tbl where col like 'ab%';...

Designing Great Products with Machine Learning

AI天才研究院

08-11

405

机器学习(Machine learning)是人工智能领域的一个重要研究方向。它使计算机能够从数据中自动分析出规律、找出模式并预测未来的行为或效果。机器学习可以应用于各种各样的领域，包括图像处理、语音识别、自然语言处理、推荐系统、广告推送等。在本文中，我将介绍如何通过设计高质量的产品和服务来提升用户体验、提升商业利润，以及如何把机器学习技术应用到我们的日常生活中。为了达到这一目标，需要结合业务需求、市场竞争力、技术能力、资源投入等多方面因素，进行全面的产品设计与研发工作。

【ChatGPT核心原理实战】手动求解 Transformer：分步数学示例 | Solving Transformer by Hand: A Step-by-Step Math Example

AI天才研究院

12-22

3060

手动求解 Transformer：分步数学示例Understanding Transformers: A Step-by-Step Math Example — Part 1了解 Transformer：分步数学示例 — 第 1 部分I understand that the transformer architecture may seem scary, and you might have encountered various explanations on…我知道变压器架构可能看起来很可怕，并且

知识图谱query与文本相似性如何处理

studyvcmfc的专栏

11-11

356

https://blog.csdn.net/poson/article/details/85922519

CNN深度神经网络在NLP短文本相似的的应用

科大小笨的博客

04-23

1763

转载自：https://blog.csdn.net/diye2008/article/details/53762124?ref=myread 本文的内容是紧接着上一篇文章的内容，上一篇文章讲到 CNN在文本分类领域的应用，本文将讨论其在文本相似度计算方面的应用，文本相似度可以用于搜索引擎、文本去重、文本挖掘、推荐系统等多个领域，也是NLP中需要处理的一类任务。 0.文本相似度计算所谓文本相...

搜索引擎算法之Query Similarity （query relevance、查询的相似性或相关性）

数据挖掘爱好者

01-06

7311

目录介绍：一、计算相似性的方法很多，最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步，很自然想到搜索点击的结果来计算两个Query的相似性。三、当然我们也可以借助协同过滤的方法，把query和点击item作为一个评分矩阵，按照协同过滤的方法来计算相关性。四、由于点击数据受到搜索结果的影响，由于排序质量的问题，点击的位置...

相似query(句子)聚类

gzt940726的博客

05-20

5959

相似query（句子）聚类首先说明一下，这些句子均来自一个特定的领域（如教育，娱乐明星，游戏），且无标签。先讲一下大体流程。首先对句子分词，并根据word2vec的思想，对句子进行了向量化，接着对高纬度向量表征的句子进行了PCA降维，然后用kmeans对句子进行了聚类，再利用相似度阈值的思想过滤掉了一些“噪音”句子，最后根据聚起来的相同类别的句子的高频共现词得到该类的几个标签。最终我们...

Elasticsearch实战——近似文本查询(more_like_this query)

dwjf321的博客

01-13

3575

ES文本推荐查询。more_like_this查询

海量数据相似度搜索，如相似的网页、图像、文章、query 等相似性搜索

MachineRandy

05-23

7040

参考资料： https://blog.csdn.net/icvpr/article/details/12342159 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍 http://grunt1223.iteye.com/blog/964564 simhash与重复信息识别 http://www.07net01.com/2015/08/907327.ht...

漫谈个性化Query推荐

DrifterJ's Stash

08-05

3564

深度学习解决NLP问题：语义相似度计算

weixin_30512785的博客

11-02

2656

在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。 1. 背景以搜索引擎和搜索广告为例，最重要的也最难解决的问题是语义相似度，这里主要体现在...

基于点击图模型Query和Document相关性的计算

哆啦咪~fo

06-03

3500

参考论文:Learning Query and Document Relevance from a Web-scale Click Graph背景：用户的点击日志蕴含丰富的信息，在信息检索领域具有着重要的地位。用户点击行为数据通常用来生成训练数据用户机器学习提高ranking performance,或者是在ranking fuction中作为特征来计算ranking score.但是点击数据存在...

MongoDB集合中find查询的使用和优化

MongoDB查询之find命令详解 MongoDB作为NoSQL数据库的一种，查询机制是其核心组件之一。本章主要介绍MongoDB中find命令的使用和应用，包括find命令的基本语法、查询条件、投影操作等。 find命令是MongoDB中最基本...