RagFlow 文档解析

RAGFlow:基于OCR和文档解析的下一代 RAG 引擎

RAGFlow 的设计哲学是“高质量输入,高质量输出”,它通过提供可解释性和可控性的生成结果,让用户能够信任并依赖于系统提供的答案。

RagFlow核心功能

1、文本切片

2、深度文档理解(DeepDoc)

3、兼容各类异构数据源

DeepDoc

DeepDoc的模型应该是基于paddleOCR的模型去微调训练的,开源出来的模型是onnx格式的
在这里插入图片描述
代码解析参考后期可能从这里改要求的解析模板要求

LLM

在 RAGFlow 中,LLM(Large Language Models,大型语言模型)和嵌入模型(Embedding Models)扮演着至关重要的角色,它们共同协作以实现高效的信息检索和生成任务。

LLM的主要作用包括
1、理解用户查询
2、生成回答
3、提供可控性: LLM可以根据用户的指示生成特定风格或格式的回答,确保生成内容的可控性和准确性。
4、跨语言能力: 对于多语言环境下的RAG任务,LLM需要具备跨语言理解和生成的能力,以便在不同语言之间进行有效的信息检索和转换

Embedding的主要作用:
主要用于将文本数据转换为向量表示
1、文本向量化
2、相似性比较
3、检索数据
4、增强多模态处理能力

RagFlow核心架构

1、文档解析器

2、查询分析器

3、LLM

4、检索引擎

5、重排器

RagFlow工作流程

在这里插入图片描述

OK,到此为止RagFlow的理论基础大致有了一个概念,现在开始动手实操!

RagFlow使用教程

首先,需要在RagFlow中添加模型
在这里插入图片描述

chat模型用于测试,embedding模型用于分词做知识库

注意:url为自己ip地址加11434(Ollama默认服务端口)
查询自己的ip地址命令

时调整其输出的最大长度(max-tokens)
我填了2000,后期改参考这个

ipconfig

在这里插入图片描述
在这里插入图片描述

可能会报错:请求连接失败
需要在Ubuntu上确保防火墙没有阻止Ollama使用的端口(例如11434)

sudo ufw allow 11434
sudo ufw reload
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值