自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(850)
  • 收藏
  • 关注

原创 量化在密集向量检索中的权衡:深入分析索引时间、查询效率与召回效果

在现代信息检索系统中,向量搜索已成为提升检索质量和效率的关键技术。随着数据量的激增,如何高效地处理和检索大规模向量数据集,成为了一个重要课题。最近,我在研究一篇关于密集和稀疏检索器的论文——《Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes?》——它为我们提供了关于量化技术在实际应用中的见解。本文将深入探讨量化技术在索引时间、查询效率和召回效果方面的影响。

2024-09-17 23:22:32 188

原创 稠密向量检索、稀疏向量检索、BM25检索三者对比

稠密向量检索,也称为Dense Retrieval,是一种基于深度学习的检索方法。它通过将文本转换为高维空间中的连续向量表示,然后使用向量相似度(如余弦相似度)来检索相关文档。这种方法的优势在于能够捕捉到文本的深层次语义信息,从而提高检索的相关性。技术实现:通常使用预训练的语言模型(如BERT、T5)对文档和查询进行编码,得到稠密的向量表示。应用场景:适用于需要理解复杂语义的场景,如自然语言理解、智能问答系统等。性能表现:在小规模数据集上表现优异,但在大规模数据集上可能会遇到性能瓶颈。

2024-09-17 22:28:01 804

原创 RAG 基准测试(法律领域)测试数据集分享

最近的一部分工作,有在做RAG的benchmark。年初三四月份(2024)的时候,调研已有的测试方案的时候,相关工作很少,只有一篇论文。最近再看相关的测试数据集又多了一些。我们虽然也有构建数据集,但是还是相对少一些。今天分享一篇论文,RAG关于法律领域的测试数据集。通常这种数据集需要一些领域知识,才能更好的更充分的构建出来这个数据集。实际上,评估RAG的能力,使用通用数据集是远远不够的。专门的领域测试数据集更权威和合理一些,更能够真实的反应RAG在实际使用场景中的能力。

2024-09-16 17:23:40 906

原创 Elasticsearch向量检索(KNN)千万级耗时长问题分析与优化方案

第一次对索引进行查询时,如果预加载的文件(如 .vec、.vem、.vex 文件)尚未被加载到内存中,Elasticsearch 需要从磁盘读取这些文件,并将它们加载到内存中。占用的是服务器的内存。对于es条件,相同的条件会命中缓存,在测试过程中,应该通过替换检索条件的内容,来避免查询缓存的影响。当新的段文件生成(例如在写入数据或合并段时),这些新的段文件同样需要在首次访问时加载到内存中,这也可能导致第一次查询变慢。经过排查发现,检索的过程中,只用knn检索,耗时短,加上ANN检索后,耗时变长。

2024-08-26 13:11:36 1200

原创 ES 近一年新版本,关于knn的新功能与优化

近一年,es发布了很多个版本。本文,主要整理了es关于knn搜索相关的优化项。也放了官方文档的链接。

2024-08-26 12:56:38 986

原创 qwen2技术报告

这篇论文是关于Qwen2系列的技术分析报告,由阿里巴巴集团的Qwen团队撰写。Qwen2是一系列大型语言模型和大型多模态模型的最新成员。引言介绍了大型语言模型(LLMs)的发展背景,特别是OpenAI的ChatGPT和Meta的Llama系列。Qwen2系列是在Qwen和Qwen1.5的基础上进一步发展的,包括基础语言模型和指令调优模型。分词器与模型描述了Qwen2使用的分词器,基于字节级别的字节对编码。介绍了Qwen2模型的架构,包括密集模型和专家混合模型(MoE)。预训练。

2024-07-20 21:10:14 1256

原创 开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。

2024-07-20 13:31:32 2870 2

原创 一篇论文分享,以多模态的形式来做RAG的研究

这篇论文,给我很强的割裂感和冲击感。非常值得阅读。我是做RAG相关研究工作的 ,过去一年在做传统的RAG,就是标准的文档解析,chunk,召回,排序,模型生成答案这条路。深谙RAG的复杂,中间要优化的环节太多了。中间要翻的大山太多了,其中文档解析,文件理解,再到去定义M+1个召回策略,很复杂。这篇论文直击痛点,让我觉得很哇塞。这篇论文给很大的冲击感,颠覆了传统的路线,让我觉得如沐春风。论文提出使用依靠多模态模型,来做RAG,这样只需要使用文档的截图就可以了。

2024-07-19 08:00:00 1082

原创 最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)

毫不夸张的说PDF解析工具MinerU是照进RAG黑暗中的一道光——这是我对它的评价。我测过太多了文档解析工具! 最近在做文档解析的工作。看了很多的开源的文档解析的工具,版面分析的工具,其中包括paddelpaddel这样30k+star的明星工具。但是效果都觉得不好。MinerU是一个最近开源的文档解析工具,可以把PDF转成json结构,还可以转成md格式。可以解析得到其中的图片,表格,可以得到段落,可以得到标题,这是很哇塞的事情。因为最近RAG特别火热,这些都是RAG非常需要的。

2024-07-18 22:24:38 7310 8

原创 最新开源的PDF版面分析工具 PDF-Extract-Kit

最近有一个新开源的版面分析的模型,做PDF版面分析效果非常好。而且对公式的解析效果比较好。虽然现在star数量不高,但是绝对会涨起来的。我们调研对比过很多开源的工具,效果都强差人意,这个是我看到的最满意的一个。甚至要比我们生产环境的都要好一些。这里分享一下详细的安装过程。 github上的的教程太粗糙了。我把遇到的问题和解决方法都写了出来。 这篇文章分享的是在windows10下安装的案例。且以cpu启动。最终可以成功启动。

2024-07-18 21:55:25 2544

原创 关于文档理解相关工作的一些总结

过去四年时间,都在处理结构化数据的存储优化相关的工作。最近一段时间在做RAG相关的工作。非结构数据的存储与检索,接触的也越来越多。这篇文章聊聊最近一段时间关于文档理解方面的一些心得。

2024-07-14 23:12:03 910 1

原创 RAG 效果提升的最后一步—— 微调LLM

如果说,rerank能够让RAG的效果实现百尺竿头更进一步,那么LLM微调应该是RAG效果提升的最后一步。把召回的数据,经过粗排,重排序后,送给模型,由模型最后总结答案。LLM的确已经是RAG的最后一步了。这里还是会遇到一个问题,召回的正确的答案,但是答案藏在比较长的上下文中。例如 top10的数据,又或者是top20的数据中。这非常考验模型的能力。看到一篇论文,非常好,在分享如何微调LLM,来做好这最后一步。

2024-07-14 02:04:42 431

原创 RAG 召回提升相关方案分享

最近大半年时间都在做RAG的工作,分享一点个人探索的方向。和提升的方案。文章中会分享是如何做的,以及对应的效果。

2024-07-13 15:50:33 2174

原创 搜索引擎中的相关性模型

相关性模型主要关注的是query和doc的相关性。例如给定query,和1000个doc,找到哪个doc是好query最相关的。

2024-07-13 13:52:36 796

原创 RAG的上限在哪里?边界在哪里?

随着大模型的火热,RAG也重出江湖,成为AI产品中最火热的成员之一。特别是2024年到现在,越来越多的RAG产品出现在gitlib 上。 世人皆知RAG,唯独不知RAG的能力边界。 RAG用一句话:入门(demo跑通整个流程)像1一样容易,出神入化(能够达到生产级别的要求)真的还挺难。 RAG相关的工作,做了一年又余。随着时间变化,愈来愈觉得,RAG需要特别多的知识才能真的把它做好。而我在不断的补这些知识,这是一条挺难的路。(我自己把它单做“蜀道难”的登山路)

2024-07-11 23:57:24 1607

原创 搜索引擎AP调研报告

这篇文章分享给做AI搜索的朋友们。少走一些重复的路把。希望这些结果能够帮到大家。这里再分享一些心得。其实我们也在想,为什么现在已经有的AI搜素,他们的联网查询为何这么快?为什么这么稳定?像国内AI搜索做的比较好的,kimi,秘塔,360ai搜索。其中秘塔是被猎豹控股的(猎豹本身就是做搜索引擎的),360浏览器本身也是做搜索引擎的。他们的联网搜索并不是走的爬取网页的方式。前段时间分析过kimi的联网查询,大概率是bing的接口。不过现在就不一定了。

2024-07-11 23:26:52 1136

原创 搜索引擎算法工程师,在query理解方面,都有哪些方面的工作

通俗来讲,就是query整形。又可以理解为是一个转接头,把用户送来过来的奇奇怪怪的query(或者说是在搜索引擎看来是奇奇怪怪的query)转换为搜索引擎最想看到的query的。在LLM当前能力的帮助下,实际上query理解的工作好做多了。即使没有太多基础的玩家,实际上完全可以依赖LLM来做这件事。对于任何一个环节,就是一个prompt的事情。这绝对是会有收益的。问题是成本,以及性能。一个检索需求的时延要求多数是3s内,如果只靠LLM是很难控制在3s内的。

2024-07-11 23:05:11 1392

原创 使用模型来做召回和排序

文本检索任务可以定义为: 给定一个文档集合,用户输入一个query来表达信息检索需求,借助于一个文本检索系统返回相关文档给用户。日常生活中,我们几乎天天都在用文本检索系统,比如谷歌、百度搜索,淘宝电商搜索,搜索系统已经成为用户获取信息的一个重要入口。对于文本检索任务,抽象出来的核心目标就是怎么去计算用户输入的 query和文档集合中每个doc的文本相似度。

2024-05-23 13:27:53 1176 2

原创 开源RAG,本地mac启动 dify源码服务

参考官方文档来操作,基本没太大的问题。一些细节,我在本篇文章中补充了出来。这篇文章主要讲以源码的方式启动后端服务,前端服务使用容器启动。Dify 本地源码部署文档(有本地源码部署,我们才能在源码上继续做修改)先知道要花费多少资源这里docker 容器,占用了8个G的内存!# 创建名为 dify 的 Python 3.10 环境# 切换至 dify Python 环境可以进入到自己的代码常用目录,再拉取代码进入到dify目录可以看到请记住web 和 api的路径,后边会用到。

2024-05-23 00:22:58 2321

原创 关于搜索引擎链路

搜索引擎的工作流程包括爬虫抓取网页内容、索引处理、查询处理、检索与排名以及结果呈现。在查询处理阶段,搜索引擎需进行多个步骤来优化搜索效果。首先是分词,将查询词分解为独立词汇单元。接着是词权重判别,识别查询中的关键和非关键部分。然后进行类目识别与分类,以提高检索准确性。意图识别也是关键步骤,通过识别查询中的时效性和地域性意图,提升搜索结果的相关性。查询词改写和纠错则帮助改进用户输入,增强搜索匹配度。召回阶段包括关键词召回(如BM25)和语义召回(如DSSM双塔模型),用于匹配相关文档。最后,通过排序模型对召回

2024-05-20 00:14:40 1191

原创 一点搜广推的小知识

搜广推,解决的核心问题是信息过载,在海量的数据中,信息中做大海捞针的事情。我自己的真是感受,搜索要分为不同的领域。电商、视频、内容搜索是完全不同的,它们的特征差异很大。知识搜索(或者说问答搜索)又是完全区别于电商和视频的。知识搜索更加关注的是对或者不对,又或者说有或者没有。推荐和搜索的思路是相近的。都是召回,粗排,精排,重拍。通常从粗排就开始使用一些模型了。而模型通常更多的是需要特征的构建。

2024-05-19 22:34:51 523

转载 RAG大赛解读(2024 CCF国际AIOps挑战赛·赛题与赛制)

众所周知,运维领域本身很多的行业特点,比如存在时序指标、日志、调用等多模态数据,对实时数据的要求比较高,数据之间的依赖关系复杂。例如,下图左下角是一个电商系统的样例,可以看到它的节点依赖情况。另外,还存在着领域知识以及多样化的下游场景。所以,当我们真正去做智能运维的时候就会有很多的小模型,需要解决很多的问题,也面临了很多的挑战。但是,大模型出现之后给智能运维带来了一些新的不同和新的变化。应用举例:对根因定位工具进行输入输出增强第一个特点是。

2024-05-17 13:18:22 1121

原创 QAnything 在mac M2 上纯python环境安装使用体验(避坑指南)

开源的RAG本地知识库检索的有不少。最近比较火热的就是 QAnything 和 RAGflow。其中Qanything 是相对比较早的。并且它是网易开源的,各种都相对更正规一些。安装部署文档也都比较齐全。dify 是开源做工作流的,其中也有RAG的部分。但是做的很粗糙。如果想做自己的本地知识库开发,可以在Qanything上做。我看过QAnything 和 RAGflow dify的源码,也对比了他们的效果,最终评估使用Qanything 打底。做一个全新的RAG搜索。

2024-05-09 08:33:39 1894 1

原创 使用X inference下载部署小模型(qwen1.5)测试效果

我的环境是mac m2 32G ,没办法用GPU。这是X inference的安装教程。这里是mac部署2B的教程。还有测试推理的效果,速度

2024-05-03 16:22:03 915

原创 开源的RAG 和工作流技术中值得学习和使用的点

开源RAG和workflow技术中,大家各有特色,个有千秋。这里是我的深度调研的感受总结。

2024-05-03 15:48:42 1432

原创 开源的 RAG 和 workflow 技术对比调研

我自己就是做RAG工作的,但是还是想关注一下开源的技术做到了什么程度。所以调研了很长时间,也体验了一下。这里写一篇文章来分享一下结果。我用五一的假期时间,来做调研,看代码,做测试,写文章。为大家贡献资料。这里先说一下自己的感受吧:这些开源的技术,还是各有所长的。应该结合融合到一起,才能更好的完成我们的生产需求。但是开源的文档解析最多能做到60%的效果。

2024-05-03 15:43:53 2037 1

原创 使用Xinference 在mac m2 上部署模型 Qwen 7B

23款 mac pro M232G内存注意,花内存比较多一些。参数规模越大,需要的内存越多。我部署了一个7B的qwen就花了16G的内存空间我使用Xinference来部署模型。这里是Xinference的安装文档。

2024-05-01 22:18:20 1557 1

原创 Mac M2 本地下载 Xinference

想要在Mac M2 上部署一个本地的模型。看到了这个工具Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。本地部署参考了这两个文档部署文档部署文档。

2024-05-01 21:03:36 1213 1

原创 Text2sql的一些技巧

最近看到了一篇关于text2sql的文章,以及一些论文。对使用模型做text2sql给了一些不错的建议。

2024-04-17 16:20:59 620

原创 一些Github上开源的RAG 应用

我也是做RAG相关工作的。周末抽了一些时间,来看看开源的RAG技术能够做到什么程度。其实我重点关注的是以下几点(以下几个点是RAG提升的关键点):这些开源技术他们是怎么做文档解析的(有哪些我们可以借鉴的,哪些是我不知道的)如何做切分的不同的场景数据又是如何制定不同的策略的还有如何做召回的,召回策略是什么?以及如何选用embedding模型,rerank模型效果怎么样,本地快速部署效果是否方便?

2024-04-14 18:44:21 3171

原创 大厂推广搜相关的技术文章汇总(不看会后悔系列)

他山之石可以攻玉,最近在看搜广推的内容。看到了美团,腾讯、阿里、蘑菇街等分享的搜广推的文章。本篇文章是一个知识目录,可以很好的看到搜广推近10年的发展变化。

2024-04-06 12:49:54 427

原创 NLP 在搜索引擎优化上做的工作

自然语言处理(NLP)在搜索引擎优化上的工作主要集中在提升搜索结果的相关性和准确性,以及改善用户的搜索体验。

2024-04-06 11:42:57 1166

原创 NLP在搜索召回领域中的应用场景

自然语言处理(NLP)在搜索召回领域中的应用场景非常广泛,它通过理解和分析人类语言,提高了信息检索的准确性和效率。

2024-04-06 11:36:24 540

原创 再仔细品品Elasticsearch的向量检索

我在es一开始有向量检索,就开始关注这方面内容了。特别是在8.X之后的版本,更是如此。我也已经把它应用在亿级的生产环境中,用于多模态检索和语义检索,以及RAG相关。这篇文章再带大家品一品es的向量检索。

2024-03-24 22:17:44 2639 1

原创 PDF文件底层数据结构

最近在做RAG的雕花工作。想要在PDF解析上,能够有一定的突破。上上周调研了一周的PDF解析的组件。但是还是没有一个开源的解析的很不错的组件。这篇文章,一起来看看是否能从PDF文件的底层数据结构上入手,来进行解析。PDF(Portable Document Format,可移植文档格式)是一种广泛使用的文件格式,用于呈现文档,包括文本、图像和多媒体内容。PDF文件的存储原理和结构设计得非常复杂,以确保跨平台的一致性和高效的文件传输。

2024-03-17 15:52:22 2454

原创 文档解析应该获取哪些知识?

在数字化时代,PDF文档已成为信息共享的主要格式之一。然而,要从PDF中提取有价值的知识并不容易,因为PDF设计为一种用于阅读和打印的静态格式,而不是为了内容的动态提取和分析。尽管如此,随着技术的进步,我们现在有能力从PDF文档中提取比以往任何时候都更多的内容和知识。以下是一篇关于从PDF文档中提取知识的全面指南,包括可以挖掘的数据类型和一些实用的方法。

2024-03-17 14:16:51 1104

原创 检索增强生成(RAG)应用的构建:LangChain与LlamaIndex的比较与选择

对于我要做RAG应用,我应该使用两者中的哪一个。或者说还是都使用?在人工智能领域,检索增强生成(RAG)应用正变得越来越受欢迎,因为它们能够结合大型语言模型(LLMs)的自然语言处理能力和私有或专有数据源的丰富信息。在构建RAG应用时,开发者面临的一个重要选择是选择合适的工具或框架。本文将探讨两个流行的工具:LangChain和LlamaIndex,并提供决策指南。

2024-03-17 13:25:36 2139

原创 为什么不要使用elasticsearch

互联网上有很多文章,都在讲为什么要使用elasticsearch,却很少有人讲为什么不要使用elasticsearch。作为深入研究elasticsearch四年,负责公司万亿级别检索的操盘手,借着这篇文章,给大家分享一下,为什么不要使用elasticsearch。

2024-03-12 20:58:55 1719 1

原创 python 如何使用 NLPchina 开源sql插件,提供代码

分享一段使用python,通过使用发送post请求的方式,来从es集群中获取数据。不用使用 elasticsearh,仅需要导入request和json包即可。

2024-03-12 19:45:10 452

原创 学习和认知的四个阶段,以及学习方法分享

本文分享学习的四个不同的阶段,以及分享个人的一些学习方法。这一认知过程,恰与Dunning-Kruger Effect(达克效应)的总结相类似:越是无知的人就越自信。当一个人知识越来越多,自信心会下降,但是突破临界点以后,自信心会回升,但之后不论怎么回升,都不如一开始一无所知时那么自信。即越是知识丰富的人越能意识到自己的不足,也越能发现、承认与学习别人的优点。这些认知阶段也恰好可以对应达克效应曲线的不同分段:愚昧山峰(不知道自己不知道),绝望之谷(知道自己不知道),开悟之坡(知道自己知道)与平稳高原

2024-03-09 15:33:44 2651 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除