Rocchio笔记

Elffffffff

已于 2022-09-24 11:03:20 修改

阅读量75

点赞数

文章标签：自然语言处理

于 2022-04-10 08:18:44 首次发布

本文链接：https://blog.csdn.net/elf1110/article/details/124070075

版权

本文探讨了伪相关反馈作为相关反馈的一种形式，其原理在于利用第一轮检索结果作为伪相关文档，通过TF-IDF或BM25等方法进行查询扩展。在第二轮检索中，结合用户反馈进一步优化查询向量。这种方法旨在提高检索系统的精度和召回率，尤其适用于信息检索和搜索引擎优化领域。

摘要由CSDN通过智能技术生成

伪相关反馈是相关反馈的一种，伪在第一轮返回的文档称为伪文档，默认伪文档是相关的。

$Q^{'}=\alpha Q_{0}+\beta Q_{1}$ （公式1）

$Q_{0}$ 原始查询， $Q_{1}$ 通过查询扩展得到的查询词。

对 $Q_{1}$ 处理得到 $Q_{1}^{'}$ ,然后再融入到公式1中。

Rocchio第一轮得通过TF-idf(目前BM25较多)得到伪文档；

第二轮通过结合了的 $Q_{1}^{'}$ 进行。（ $Q_{1}^{'}$ 内部可经过不同部分的线性组合）

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Elffffffff

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Rocchio笔记

伪相关反馈是相关反馈的一种，伪在第一轮返回的文档称为伪文档，默认伪文档是相关的。Rocchio第一轮得通过TF-idf(目前BM25较多)得到伪文档；第二轮
复制链接

扫一扫

信息检索导论第9章-相关反馈及扩展查询

EverlightGe

01-12

2833

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

qy20115549的博客

04-10

1638

论文来源Zuo Y, Wu J, Zhang H, et al. Topic modeling of short texts: A pseudo-document view[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016:

参与评论您还未登录，请先登录后发表或查看评论

Linux学习-伪文件（设备文件，命名管道，proc文件）

Crazy World

05-31

1954

伪文件不用来存储数据，本身不占用任何空间。是文件系统的一部分，并按目录进行组织。目的：提供一种服务，采取和常规文件相同的访问方式进行访问。多数情况下，伪文件用来访问内核（操作系统的核心部分）提供的服务。类型：特殊文件，命名管道，proc文件特殊文件：也称设备文件，是物理设备的内部表示，包括计算机和网络中的每个设备都可以当作特殊文件来访问。如键盘，显示器，打印机，磁盘驱动器。命名管道：管道功能的一个...

ros笔记

晴天

08-08

515

1> bashrc文件实际是一个启动脚本文件，只有将某些文件包正确的添加source在这个文件，当你查找或使用某些文件包的时候才能正确找到，不然，便会出现找不到包的现象发生。而如何确保已经设置了像ROS_PACKAGE_PATH这样的环境变量，可以通过命令 export | grep ROS 来查看。 2> 工作环境的搭建需要几步：首先mkdir一个文件，然后cd到此文件目录

Rocchio算法

热门推荐

sulliy的专栏

08-08

1万+

Rocchio算法是IR中通过查询的初始匹配文档对原始查询进行修改以优化查询的方法。Rocchio 算法是相关反馈实现中的一个经典算法，它提供了一种将相关反馈信息融到向量空间模型的方法。基本理论：假定我们要找一个最优查询向量q ，它与相关文档之间的相似度最大且同时又和不相关文档之

文本分类学习笔记（1）- 概论

锦年的博客

12-11

1105

一、文本分类一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。[1]中给出了多种文本分类的概念，参考其他资料发现主要有几点需要注意：第一，分类所需要的类别体系即类别及其标号是预先确定的；第二，一篇文档并没有严格规定只能被分配给一个类别，而是与分类这个问题的主观性有关，可以采用置信度来评估[2]；第三，文本分类不等价与“判断一

《白话大数据与机器学习》学习笔记

Keenjin的专栏

02-19

1021

机器学习初使用 1 回归 1.1 线性回归 - 最小二乘法拟合 import numpy as np import matplotlib.pyplot as plt from IPython.display import Latex,display print("-"*100) x = np.array([1,2,3,4,5,6,7,8,9]) y = np.array([0.199,0.389...

TextClassification:使用Python进行文本分类的简单实践

07-03

使用 Rocchio 算法的文本分类。每个文档都在一个向量空间中表示。在训练阶段，找到每类文档的质心。在测试阶段，计算测试文档到每个质心的距离，并将文档分配到最近的质心类。天真的eBayes.py 使用朴素贝叶斯...

【阅读笔记】AutoEncoder by Forest+Deep Forest+Ladder Networks+PU learning

SrdLaplace的博客

08-19

1514

这周看的文章，感觉都还挺有意思，但是实用价值一般，就简要的存个档。前两篇时周志华的深度森林3弹的前两弹，第三弹以前介绍过，我也是跟风读了读，毕竟周志华知名度还是比较高的，感觉还是挺有想法的，但是距离实用还是有一些距离。总体而言，第一篇借鉴神经网络多层的想法，然随机森林也搞成多层，每层也做表征学习。第二篇是自编码，用最大兼容规则（MCR）重构出原图。第三篇是借鉴反向传播，构造逆函数，把误差传回去...

学习笔记(1)-数据挖掘及其应用浅谈

锦年的博客

12-12

1434

刚刚结束数据挖掘的课程，对数据挖掘的理论与算法有了一定的了解，借此报告的机会对数据挖掘知识进行一些梳理，并对现有工作中数据挖掘的应用和存在的问题进行讨论。一、数据挖掘知识汇总（简介）：数据挖掘是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤，其本质是在大型的存储数据中自动的发现有用信息的过程。任务包括预测建模（分类及回归拟合

【深度学习与NLP】——深度卷积神经网络AlexNet

lingxw的博客

08-27

437

AlexNet 的出现极大地推动了深度学习在计算机视觉领域的发展。它证明了深度神经网络在图像识别等任务上的强大能力，为后续的研究提供了重要的参考和启示。此后，各种深度神经网络架构不断涌现，性能也不断提升。总之，AlexNet 是深度学习发展历程中的一个重要里程碑，它的创新之处和优异性能对计算机视觉领域产生了深远的影响。

[论文笔记]Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline

日积月累，天道酬勤

08-27

⭐ 作者提出了一种局部对比估计方法用于训练重排序器，即首先通过一阶段的检索器来选择负样本，然后与正样本做对比学习，有效防止模型训崩。

【Python机器学习】NLP分词——利用分词器构建词汇表（六）——词汇表归一化

weixin_39407597的博客

08-26

778

词汇表大小对NLP流水线的性能有很大的影响，有一种减少词汇表大小的方法是将词汇表归一化以便意义相似的词条归并成单个归一化的形式。这样做一方面可以减少需要再词汇表中保留的词条数，另一方面也会提高语料库中意义相似但是拼写不同的词条或者n-gram之间的语义关联。

【Python机器学习】NLP分词——利用分词器构建词汇表（一）

weixin_39407597的博客

08-23

939

在NLP中，分词（也称切词）是一种特殊的文档切分过程。

NLP从零开始------14.文本中阶序列处理之语言模型(2)

最新发布

m0_74922316的博客

08-27

671

双向循环神经网络的填充更加复杂，正向和反向的循环神经网络的读取顺序相反，难以保证两个方向的循环神经网络都在末尾填充，实现起来较为困难。需要注意的是，双向循环神经网络在每个位置的输出同时包含来自左边和右边的信息，也就是整个输入序列的信息，因此双向循环神经网络不能用于语言模型，因为语言模型需要仅根据序列中每个词左边的信息来预测这个词。双向循环神经网络的结构包含一个正向的循环神经网络和一个反向的循环神经网络(即从右到左读入文字序列)，将这两个网络对应位置的输出拼接得到最终的输出，如下图所示。

大语言模型-GPT3-Language Models are Few-Shot Learners

weixin_42045968的博客

08-27

559

## 一、背景信息： GPT3是于2020 年由OpenAI 发布的预训练语言模型。 GPT3在自然语言处理（NLP）任务中表现出色，可以生成连贯的文本、回答问题、进行对话等。 GPT3的网络架构继续沿用GPT1、GPT2的是多层Transformer Decoder改的结构。 GPT3出自Language Models are Few-Shot Learners，语言模型是Few-Shot学习者。

使用在AMD GPU上运行的ROCm进行大语言模型的自然语言处理任务

数字人生

08-26

749

早期的文本摘要方法集中于从文本中提取关键词或关键短语，并使用人工定义的规则将它们组装成摘要。LLM（大规模语言模型）改变了摘要生成的方式，因为它能够捕捉到长文本序列中词汇之间的关系。有许多专门针对这些任务训练的著名LLM。本节展示了其中的两个。在这篇博客中，你学习了如何使用运行在AMD GPU上的ROCm实现多个流行的大语言模型，以轻松执行各种自然语言处理任务，如文本生成、摘要和数学问题解决。如果你有兴趣提高这些模型的性能，请查看关于微调Llama2和Starcoder的ROCm博客。

【Python机器学习】NLP分词——词的“情感”

weixin_39407597的博客

08-27

689

无论NLP流水线中使用的是单个词、n-gram、词干还是词元作为词条，每个词条都包含了一些信息，这些信息中一个重要部分是词的情感，即一个词所唤起的总体感觉或感情。

【Python机器学习】NLP分词——利用分词器构建词汇表（三）——度量词袋之间的重合度

weixin_39407597的博客

08-26

267

如果能够度量两个向量词袋之间的重合度，就可以很好地估计他们所用词的相似程度，而这也是它们语义上重合度的一个很好的估计。

Rocchio实现文档分类的算法

05-15

Rocchio算法是一种基于向量空间模型的文本分类算法。它的核心思想是通过计算文档向量与类别向量的距离来确定文档所属的类别。具体来说，Rocchio算法的实现步骤如下： 1. 预处理：将文档转化为词向量表示，例如使用...