【论文阅读】FUNNELRAG:一个从粗到精的逐级检索范式 合并的条件是新聚类c_new的大小(即包含的文档数量)加上要合并的聚类c的大小不超过最大聚类大小S。如果满足条件,我们就将聚类c合并到c_new中,将新聚类c_new添加到聚类集合C中,并从聚类集合C中移除聚类c,●指标,AR主要是检索指标,可能会高估检索信息的有用性,因为它机械地衡量检索信息是否包含答案字符串,即使检索信息没有传达准确的含义。● 调参,为了实现负载均衡和提高检索准确性,需要调整一些超参数,例如最大集群大小S,以及每个阶段之间需要仔细协作的数据流量,例如每个阶段检索到的单元数量。
【环境搭建】远程服务器搭建ElasticSearch 2、安装过程中没有出现设置账号密码,但请求时需要鉴权,可以关闭鉴权配置。1、切换为非root用户,su 新用户名,否则ES无法启动。通过python创建es对象,并且进行bm25检索。1. 研究下本地kibana怎么连接远程ES。服务器平台:AutoDL。
【环境搭建】MAC M1安装ElasticSearch 安装完成,打开http://localhost:5601。浏览器输入 127.0.0.1:9200。出现报错,打开安全与隐私,允许安装。,下载mac m1对应版本的es。
【论文阅读】BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation 这篇论文的研究背景主要聚焦于中的两个关键问题:在处理复杂任务输入时,传统的检索方法往往难以捕捉到所有相关信息,从而导致不完整的检索结果。这是因为复杂查询可能缺少一些关键词,限制了检索文档的质量。检索到的知识常常包含无关或误导性信息,这会降低大语言模型(LLM)的生成性能,导致不准确的输出。为了解决这些问题,作者提出了一个新框架,通过结合内部和外部知识的查询生成增强技术,改善复杂查询的检索质量,并通过一个新的知识过滤模块来剔除不相关的知识,从而提升模型性能。
【论文阅读】MEDICAL GRAPH RAG: TOWARDS SAFE MEDICAL LARGE LANGUAGE MODEL VIA ,提取独立的命题,并基于这些命题进行更精确的分块。通过多层次的图结构和检索策略,成功解决了 LLM 在处理复杂医学问题时的精确性、安全性和可靠性问题,未来可以探索该框架在更多领域和实时应用中的潜力,进一步推动医学领域 LLM 的发展和应用。三层结构的医学图谱:从用户提供的文档中提取实体,将其链接到医学书籍和文献中的知识,再进一步连接到权威的医学术语系统(如UMLS)为了应对这些挑战,本文提出了一种。该方法通过图结构和LLM结合,旨在提升LLM在医学领域中的表现,生成基于证据的响应,增强其安全性和可靠性。
【论文阅读】Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense R git地址:1 研究背景:在有限计算资源的情况下如何使用较小的语言模型(LLM)来回答简单推理问题问题。
【论文阅读】Benchmarking Retrieval-Augmented Generation for Medicine 在PubMedQA*和BioASQ-Y/N数据集中,模型的准确率随片段中关键信息位置的变化呈现先下降后上升的U型变化,U-shaped decreasing-then-increasing pattern,这暗示在未来的医学RAG研究中安排片段位置的重要性。对于数据隐私敏感的高风险场景,Mixtral等开源模型是不错的选择。:当关键信息出现在检索片段的中间时,MEDRAG的表现最差,这被称为“lost-in-the middle”,表明信息的位置对模型的回答能力有很大影响。
【论文阅读】W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering 论文代码:https://github.com/jmnian/weak_label_f or_rag。
【论文阅读】Fact Finder - Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge G 知识图谱(Knowledge Graphs, KGs)是提高LLM中事实正确性的一种很有效的方法,尤其是在生命科学这些图谱发展比较成熟的领域。通过将药物、疾病和基因等实体以及它们之间的关系组织成一个结构化的网络,知识库为LLM提供了有用的额外背景,以便进行精确和相关的信息检索。本文构建了一个混合问答系统-FactFinder,通过结合KG和LLM来对专业领域的问题进行精准回答。本文的3个贡献:1、结合KG和LLM构建FactFinder问答系统。
【学习记录】关于向量模型中CLS pooling的思考 向量模型通常是基于BERT架构 ,Input会在句首加上一个[CLS]标签, CLS是classification的缩写,而CLS的输出能表征整个句子的含义,用于文本分类等下游任务。)后,CLS很好地融合了整个句子的语义信息,可以理解为,将整个句子的语义信息都“平均”到了CLS上,因此CLS能够比较好地表征整个句子的语义。除了CLS外,也有pooling方法是通过直接average整个最后一层的embedding实现的。
【论文阅读】RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework 论文地址:https://arxiv.org/abs/2408.01262工具地址:https://github.com/gomate-community/rageval。
【论文阅读】Corpus-Steered Query Expansion with Large Language Models 通过LLM做query expansion是一种有效提升检索准确率的方法,但是这种做法带来的挑战是,LLM并不具备垂直领域相关的知识,如果让LLM基于自身知识做query扩写,会导致幻觉或者引入过时的信息。这篇文章结合KEQE(Knowledge Empowered Query Expansion)和PRF(Pseudo Relevance Feedback)做了进一步优化,集二者之长,提出了一种新的定向query改写的方式。
【论文阅读】Searching for Best Practices in Retrieval-Augmented Generation 这篇论文对RAG的整个workflow以及各个模块进行了非常详细的讨论,甚至对各个模块的方法都做了实验对比,从而来找到RAG的最佳实践。整个阅读下来获益良多,对RAG的很多有了更系统性的认识,同时感慨下RAG的技术栈还是很广的,每个环节都有可以深入学习的地方。总的来说,文章有3个核心贡献点:1、探索了RAG各个组件的最佳配置2、提出RAG评估框架和评估数据集3、提出“retrieval as generation”, 提升图文问答能力,最后这点是一个比较novel的观点。
【论文阅读】Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach LC性能更好(LCM能力一直在持续提升),而RAG的优势在于低成本。为了兼顾低成本和性能,论文提出了一个trade-off方案“self-route“,由模型自身决定RAG还是LC。在保持相当于LC的性能前提下,self-route方法降低成本(65% for Gemini-1.5-pro,39% for GPT-4O)
【实践总结】vllm多卡推理 多卡推理,设置tensor_parallel_size=2,服务:Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵💫。环境:2* A100 40G。模型:qwen2-7B。
【bug解决】chatglm3推理 ValueError: too many values to unpack (expected 2) chatglm3推理报错:too many values to unpack (expected 2)原因是transformers版本过高,修改为transformers==4.41.2。
【论文阅读】Seven Failure Points When Engineering a Retrieval Augmented Generation System 论文从软件工程的角度,通过对3个case study的研究,总结出rag的7个故障点。
【论文阅读】RAFT: Adapting Language Model to Domain Specific RAG 这篇论文主要是研究如何提升RAG中pre-trained LLM在垂域知识中的开卷考试的能力,提出了一种名为“RAFT”的训练范式。RAG的一个挑战在于,检索内容中同时包含golden document(正确的文档)和distractor documents(相关但非正确的混淆文档)时,大模型可能会从distractor document中抽取出错误回答。RAFT通过构造COT类型的QA对数据集来微调模型,从而提升大模型的推理能力。