RAG企业知识库问答系列
文章平均质量分 96
RAG企业知识库问答系列
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
从零实现本地知识库问答——实战基于OCR和文本解析器的新一代RAG引擎:RAGFlow(含源码剖析)
继InfiniFlow于去年年底正式开源 AI 原生数据库 Infinity 之后,InfiniFlow的的端到端 RAG 解决方案 RAGFlow 也于近期正式开源是的,你没看错, 这3个看起来很不性感的地方,恰恰是目前许多 LLM 没有做好的。伴随着长上下文 LLM 的升级,特别是针对长上下文“大海捞针”能力的提升,极大缓解了 RAG 实施中的痛点之一 —— 来自 LLM 自身的问题而另一大问题就是来自 RAG 系统本身,这包含:数据库的问题。多路召回对于 RAG还挺重要的。原创 2024-04-13 12:02:30 · 9275 阅读 · 5 评论 -
一文通透Text Embedding模型:从text2vec、openai-text embedding到m3e、bge
判断哪些文本嵌入模型效果较好,通常需要一个评估指标来进行比较,《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准论文地址:https://arxiv.org/abs/2210.07316MTEB包含8个语义向量任务,涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试,我们建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。原创 2023-12-31 00:00:30 · 33790 阅读 · 6 评论 -
一文掌握文本语义分割:从朴素切分、Cross-Segment到阿里SeqModel
之所以写本文,源于以下两点详见,但该系统也有个可选项,可以选择达摩院开源的语义分割模型:nlp_bert_document-segmentation_chinese-base考虑到在RAG中,embedding和文档语义分割、段落分割都是绕不开的关键点,故本文重点梳理下各类典型的语义分割模型。原创 2024-01-04 15:00:47 · 15751 阅读 · 8 评论 -
RAG知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案
如之前的文章所述,我司下半年成立大模型项目团队之后,我兼管整个项目团队,但为让项目的推进效率更高,故分成了三大项目组对于知识库问答,现在有两种方案,一种基于llamaindex,一种基于langchain +LLM,考虑到我已在此文《基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答》中详细介绍了langchain、以及langchain-ChatGLM项目的源码剖析,本文重点则阐述如何通过基于langchain-chatchat二次开发一个知识库问答系统,包括其商用时的典型问题原创 2023-12-27 23:14:05 · 17085 阅读 · 19 评论 -
基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答
本文则侧重讲解1 什么是LangChain及langchain的整体组成架构2 解读langchain-ChatGLM项目的关键源码,不只是把它当做一个工具使用,因为对工具的原理更了解,则对工具的使用更顺畅3 langchain-ChatGLM项目的升级版langchain-chatchat原创 2023-07-05 11:45:17 · 115083 阅读 · 79 评论