【大模型基础知识系列】一文讲清楚20+大模型工具-CSDN博客

本文链接：https://blog.csdn.net/m0_48891301/article/details/148284144

1、Ollama

Ollama 是一个开源的框架，旨在简化大型语言模型的部署和管理。它提供了一个轻量级的 HTTP 服务，允许用户通过 API 接口与模型进行交互。然而，由于其默认配置可能不够安全，尤其是在网络暴露和访问控制方面，Ollama 服务可能成为潜在的攻击目标。

注意： Ollama 默认开放 11434 端口，且无任何鉴权机制。如果不加以防护，Ollama 私有化部署的方式存在数据泄露、算力盗取、服务中断等安全风险，极易引发网络和数据安全事件。

Ollama常见命令：

Ollam支持的常见模型

Ollama 配置参数说明

OLLAMA_MODELS：模型文件存放目录，默认目录为当前用户目录
OLLAMA_HOST：Ollama 服务监听的网络地址，默认为127.0.0.1，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），建议设置成0.0.0.0，从而允许其他网络访问
OLLAMA_PORT：Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如：8080等）
OLLAMA_ORIGINS：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制
OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如：纯数字如 300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）；我们可设置成24h，即模型在内存中保持 24 小时，提高访问速度
OLLAMA_NUM_PARALLEL：请求处理并发数量，默认为1，即单并发串行处理请求，可根据实际情况进行调整
OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，可以根据情况设置，超过队列长度请求被抛弃
OLLAMA_DEBUG：输出 Debug 日志标识，应用研发阶段可以设置成1，即输出详细日志信息，便于排查问题
OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1，即只能有 1 个模型在内存中

同类型产品选型建议

以下是针对 Ollama及其同类产品的深度对比分析，涵盖优缺点、适用场景及选型建议：

详细对比分析

1. Ollama

优点：

极简部署：一键安装，支持多平台（macOS/Linux/Windows WSL）
模型生态：官方维护模型库（Llama 2/3、Mistral、Phi-3等）
开发者友好：提供REST API和Python库，方便集成
资源优化：自动量化技术降低显存占用

缺点：

不支持图形界面（需搭配第三方工具）
企业级功能（如权限管理）缺失

适用场景：

开发者快速原型验证
本地AI助手开发（如文档分析、代码生成）

2. LM Studio

优点：

可视化界面：零代码操作，适合非技术用户
多模型管理：支持本地模型库管理
硬件兼容：自动适配CPU/GPU混合计算

缺点：

仅限个人免费使用，商业用途需授权
高级功能（如微调）受限

适用场景：

个人用户探索LLM能力
小型团队快速验证创意

3. GPT4All

优点：

低资源需求：可在4GB内存设备运行
隐私保护：完全离线，无数据外传
跨平台：支持桌面端和移动端（实验性）

缺点：

模型性能较弱（7B以下小模型为主）
扩展性较差（不支持自定义模型）

适用场景：

教育场景（学生实验）
老旧硬件环境部署

4. Hugging Face Transformers

优点：

全模型支持：覆盖数千种预训练模型
灵活定制：支持微调、量化、蒸馏等
社区生态：丰富的教程和共享模型

缺点：

学习曲线陡峭（需PyTorch/TensorFlow基础）
本地部署需手动优化资源

适用场景：

AI研究人员模型实验
企业定制化模型开发

5. Llama.cpp

优点：

极致性能：C++底层优化，推理速度领先
硬件兼容：支持Apple Silicon、CUDA等
量化支持：支持4-bit/5-bit等高级量化

缺点：

无官方模型库（需自行转换格式）
调试工具链不完善

适用场景：

高性能需求场景（实时对话）
嵌入式设备部署（树莓派等）

6. PrivateGPT

优点：

企业级安全：数据全生命周期加密
文档处理：内置RAG（检索增强生成）管线
审计功能：完整的使用日志记录

缺点：

社区版功能有限（如仅支持单机部署）
商业版定价较高

适用场景：

金融/医疗等敏感行业
企业知识库问答系统

选型决策树

是否需要图形界面？

✅ → LM Studio
❌ → 进入下一问题

是否注重极简部署？

✅ → Ollama
❌ → 进入下一问题

是否需要企业级功能？

✅ → PrivateGPT（商业版）
❌ → 进入下一问题

是否追求极限性能？

✅ → Llama.cpp
❌ → 进入下一问题

是否需要低资源运行？

✅ → GPT4All
❌ → Hugging Face Transformers

Ollama 安全配置

最保险：限制 Ollama 监听范围

如果仅在本地计算机运行模型，可编辑 Ollama 的环境变量，仅允许11434端口本地访问。操作步骤：

在环境变量中将OLLAMA_HOST的值修改为127.0.0.1:11434，点击确定
重启 Ollama 服务

最普适：配置防火墙策略

核心要点

目标：在OLLAMA_HOST环境变量的值保持为0.0.0.0:11434的情况下，确保TCP/11434端口仅允许局域网设备访问，并严格阻止公网访问。核心设计：

双重规则机制：白名单（允许局域网IP） + 黑名单（拒绝所有IP）
网络类型隔离：允许规则仅在「域网络」和「专用网络」可信环境中生效，拒绝规则全局生效，在使用过程中需要手动将可信网络类型设置为「域网络」。
IP范围覆盖：IPv4/IPv6 双协议防护。

对于 Ollama 这类安全性较高的开源软件，我们设置防火墙的目的主要是“防护外部攻击”，因此基础的防护策略仅需要通过入站规则过滤掉外部访问。如需防护某一敏感软件的所有联网行为，做到完全隔离数据交换，可在设置入站规则的同时增设出站规则。在完成规则创建之后，建议检查OLLAMA_HOST环境变量的值设置为0.0.0.0:11434。

规则生效

各类网络环境判定结果整理如下：

Windows 防火墙规则通过内核级驱动实现，所有新建或修改的规则会立即写入系统安全数据库，并实时生效，无需重启操作系统。若 Ollama 正在运行，被防护的端口会被 Ollama 占用，需重启 Ollama 服务以重新绑定端口。若修改了网络类型标记（如从公用改为专用），需重启网络适配器或执行命令刷新。通过上述配置，可确保 Ollama 服务在满足业务需求的同时，实现网络隔离、最小化暴露、分层防护的安全目标。

2、VLLM

vLLM 是一个专为大语言模型（LLMs）设计的高效推理库，旨在优化推理速度和内存使用。它通过动态计算图和先进的内存管理技术，帮助开发者在资源有限的情况下高效地运行大型模型。vLLM 支持多种流行的语言模型，使得用户能够快速切换和比较不同的模型，适用于实时应用场景。

参数配置

基础参数

启动服务时必须配置的关键参数，这些参数是运行vLLM服务的基本要求

核心参数

直接影响性能和资源使用的关键配置，这些参数决定了vLLM在实际运行中的效率和资源占用。

重要参数

高级功能/特殊场景的关键配置，这些参数适用于特定需求或优化场景。

推理优化

LoRA适配

安全部署

调试/监控

选型对比

在LLM推理引擎的选择上，vLLM和Ollama是两个常见的选项。对比如下：

关键决策因素

总结：

VLLM 的核心优势：
高吞吐量：支持批量推理，减少 token 生成延迟，高效 KV 
缓存管理：优化 GPU 显存，支持 更长的上下文
多 GPU 支持：Tensor Parallel 加速推
OpenAI API 兼容：可以作为 本地 API 服务器 运行

Ollama更适合个人开发和轻量级应用，而vLLM则更专注高并发、低延迟的企业级场景。

Ollama：适合个人开发者和小团队，以“开箱即用”为核心，5分钟内启动模型测试。
vLLM：企业生产环境黄金标准，通过PagedAttention实现高吞吐与低成本，适合需处理千级QPS的场景。
SGLang：复杂生成逻辑的终极解决方案，通过状态机和异步运行时简化代码，适合游戏、多轮对话等动态交互场景。
混合架构：Ollama（原型） → vLLM（核心服务） → SGLang（复杂逻辑）。最终建议：三者可组合使用——用Ollama验证创意，vLLM支撑核心服务，SGLang处理复杂逻辑，形成端到端生成式AI架构。

3、Xinference

功能定位：Xinference 是针对生成式 AI 场景度身定制的能力全面的推理服务平台。是一个性能强大且功能全面的分布式推理框架，主要用于大语言模型（LLM）、语音识别模型、多模态模型等各种模型的推理。Xinference通过简化模型部署过程，使得用户可以轻松一键部署自己的模型或内置的前沿开源模型

核心特点： XInference 的核心优势在于其部署的灵活性和易用性，原生支持 DeepSeek 等多种模型，并完美兼容 OpenAI API，无缝适配云端和本地环境。

功能优势：卓越的多模型支持能力，支持广泛的模型格式和架构；提供全生命周期模型管理，简化部署和维护流程；兼顾高性能与高度易用性，降低使用门槛；提供OpenAI兼容API，方便现有应用快速迁移和集成。

适用场景：灵活部署需求是其核心优势，尤其适合需要快速迭代、灵活应对市场变化的初创公司和注重效率、希望快速验证想法的研究团队。

参考链接：https://zhuanlan.zhihu.com/p/17183154174

4、Open-webui

Open WebUI 是一个开源的用户界面工具，用于运行和管理大语言模型 (LLM) 及其他人工智能功能。它的主要目的是简化人工智能模型的本地部署和操作，让用户能够方便地通过浏览器界面与各种 AI 模型进行交互。为本地部署的AI模型（兼容Ollama框架）提供浏览器操作界面，包含对话记录管理、推理参数设置、运行日志查看等基础功能。

一些常见ChatUI产品对比

关键结论

企业级需求 → OpenWebUI（安全管控）或 Cherry Studio（商业支持）
个人/开发者快速部署 → ChatGPT-Next-Web（多模型兼容）或 Chatbot UI（极简 OpenAI 代理）
多模态创作 → LobeChat（AI 绘画集成）
本地隐私场景 → ChatBox（桌面端轻量级）

选型建议

技术团队：优先选择 OpenWebUI（开源可控）或 LobeChat（多模态扩展）。
非技术用户：Cherry Studio（零代码）或 Chatbot UI（极简部署）。
创作者/研究者：LobeChat（AI 绘画）或 ChatGPT-Next-Web（模型测试）。
隐私敏感用户：ChatBox（本地数据存储）。

5、dify

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和 LLMOps 的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈，包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排，并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间，使其可以专注在创新和业务需求上。

Dify 能做什么？

创业，快速的将你的 AI 应用创意变成现实，无论成功和失败都需要加速。在真实世界，已经有几十个团队通过 Dify 构建 MVP（最小可用产品）获得投资，或通过 POC（概念验证）赢得了客户的订单。
将 LLM 集成至已有业务，通过引入 LLM 增强现有应用的能力，接入 Dify 的 RESTful API 从而实现 Prompt 与业务代码的解耦，在 Dify 的管理界面是跟踪数据、成本和用量，持续改进应用效果。
作为企业级 LLM 基础设施，一些银行和大型互联网公司正在将 Dify 部署为企业内的 LLM 网关，加速 GenAI 技术在企业内的推广，并实现中心化的监管。
探索 LLM 的能力边界，即使你是一个技术爱好者，通过 Dify 也可以轻松的实践 Prompt 工程和 Agent 技术，在 GPTs 推出以前就已经有超过 60,000 开发者在 Dify 上创建了自己的第一个应用。

常见参数

公共变量

CONSOLE_API_URL：控制台 API 后端 URL，用于拼接授权回调，传空则为同域。范例：https://api.console.dify.ai
CONSOLE_WEB_URL：控制台 web 前端 URL，用于拼接部分前端地址，以及 CORS 配置使用，传空则为同域。范例：https://console.dify.ai
SERVICE_API_URL：用于前端展示 Service API Base URL，传空则为同域。范例：https://api.dify.ai
APP_API_URL：WebApp API 后端 URL，用于声明前端 API 后端地址，传空则为同域。范例：https://app.dify.ai
APP_WEB_URL：WebApp URL，用于预览文件、前端展示下载用的 URL，以及作为多模型输入接口，传空则为同域。范例：https://udify.app/
FILES_URL：文件预览或下载 URL 前缀，用于将文件预览或下载 URL 给前端展示或作为多模态模型输入；为了防止他人伪造，图片预览 URL 是带有签名的，并且有 5 分钟过期时间。以上在部署服务器时，基于不同的功能给予不同的域名来区分，对于我们本地本机部署的，则全部为空，默认同域即可。

服务端

容器启动相关配置

DIFY_BIND_ADDRESS：API 服务绑定地址，默认：0.0.0.0，即所有地址均可访问。
DIFY_PORT：API 服务绑定端口号，默认 5001。
SERVER_WORKER_AMOUNT：API 服务 Server worker 数量，即 gevent worker 数量，公式：cpu 核心数 x 2 + 1 可参考：https://docs.gunicorn.org/en/stable/design.html#how-many-workers
SERVER_WORKER_CLASS：默认为 gevent，若为 windows，可以切换为 sync 或 solo。
SERVER_WORKER_CONNECTIONS：默认工作连接数，默认为10。
GUNICORN_TIMEOUT：请求处理超时时间，默认 200，建议 360，以支持更长的 sse 连接时间。
CELERY_WORKER_CLASS：和 SERVER_WORKER_CLASS 类似，默认 gevent，若为 windows，可以切换为 sync 或 solo。
CELERY_WORKER_AMOUNT：Celery worker 数量，默认为 1，按需设置。
HTTP_PROXY：HTTP 代理地址，用于解决国内无法访问 OpenAI、HuggingFace 的问题。注意，若代理部署在宿主机 (例如 http://127.0.0.1:7890)，此处代理地址应当和接入本地模型时一样，使用 Docker 容器内部的宿主机地址（例如 http://192.168.1.100:7890 或 http://172.17.0.1:7890）。
HTTPS_PROXY：HTTPS 代理地址，用于解决国内无法访问 OpenAI、HuggingFace 的问题。同上。

数据库配置

Redis配置

Celery 配置

文件存储配置

向量数据库配置

知识库配置

# 知识库文件上传大小限制UPLOAD_FILE_SIZE_LIMIT=1024UPLOAD_FILE_BATCH_LIMIT=50ETL_TYPE=dify (枚举类型：dify/UNSTRUCTURED) # 多模态 上传图片、视频、音频大小限制UPLOAD_IMAGE_FILE_SIZE_LIMIT=1000UPLOAD_VIDEO_FILE_SIZE_LIMIT=10000UPLOAD_AUDIO_FILE_SIZE_LIMIT=50 # 调整总容量大小NGINX_CLIENT_MAX_BODY_SIZE=150000M

模型供应商 & 工具位置配置

Dify应用类型

Dify 中提供了五种应用类型：

聊天助手：基于 LLM 构建对话式交互的助手
文本生成应用：面向文本生成类任务的助手，例如撰写故事、文本分类、翻译等
Agent：能够分解任务、推理思考、调用工具的对话式智能助手
对话流（Chatflow）：适用于设计复杂流程的多轮对话场景，支持记忆功能并能进行动态应用编排。
工作流（Workflow）：适用于自动化、批处理等单轮生成类任务的场景的应用编排方式，单向生成结果。

各个应用类型的功能区别见下表：

6、Anything-LLM

AnythingLLM是由Mintplex Labs开发的一款全栈应用程序，旨在将任何文档、资源或内容片段转换为上下文，以便大语言模型（LLM）在聊天期间作为参考使用。它支持多种文档类型（如PDF、TXT、DOCX等），并提供对话和查询两种聊天模式。

主要特性：

1. 多模型支持

兼容主流开源与闭源 LLM（如 GPT-4、Llama 3、Claude、Mistral），支持动态切换模型。
示例：同一应用可无缝切换使用 GPT-4 生成创意内容，Llama 3 处理本地敏感数据。

2. 私有化部署

支持本地或云端部署，提供 Docker、Kubernetes 等方案，满足数据隐私需求。
内置模型量化与 GPU 资源优化，降低硬件门槛。
多用户协作：支持团队协作，适用于企业知识管理和客户支持。

3. 企业级功能

权限管理：基于角色的访问控制（RBAC），支持 SSO（如 Okta、Azure AD）。
审计日志：记录所有模型调用与用户操作，符合 GDPR、HIPAA 等合规要求。
成本监控：实时追踪 API 调用成本（按 Token 或请求量计费）。

4. 开发友好性

提供 REST API、Python SDK 和可视化界面，支持快速集成。
内置 Prompt 工程模板库，支持动态变量插值（如 {user_name}）。
多文件格式处理：支持 PDF、TXT、DOCX 等文件格式。
多向量数据库支持：支持 Pinecone、Weaviate 等向量数据库。

5. 扩展性

插件系统支持自定义数据连接器（如数据库、CRM 系统）和功能扩展（如情感分析模块）。
支持微调与 RAG（检索增强生成）框架，提升领域适配性。

使用场景

1. 企业知识库与问答系统

用例：内部文档智能检索（RAG），自动生成技术手册摘要。
优势：支持私有数据本地处理，避免敏感信息泄露。

2. 客户服务自动化

用例：多语言聊天机器人，动态路由复杂问题至人工坐席。
优势：集成情感分析插件，实时调整回复策略。

3. 内容生成与运营

用例：批量生成营销文案、社交媒体帖子，支持 A/B 测试优化。
优势：内置 SEO 优化模板，直接对接 CMS 系统发布。

4. 数据分析与洞察

用例：非结构化数据（用户评论、调研报告）的自动摘要与趋势分析。
优势：支持 SQL 自然语言转换，降低数据分析师门槛。

5. 研发辅助

用例：代码生成、文档自动化、技术问答知识库。
优势：集成 GitHub/GitLab，实时同步代码上下文。优缺点与核心限制

优缺点

核心限制

1. 模型微调门槛

需自行准备标注数据，缺乏自动化数据清洗工具，微调效果依赖专家经验。

2. 实时性瓶颈

流式响应（如逐字生成）延迟较高，不适合超低延迟场景（如实时语音对话）。

3. 小语种支持

对非英语语种（如东南亚语言）的预训练模型支持有限，需额外定制词表。

4. 硬件依赖

本地部署需高性能 GPU（如 A100），边缘设备（如手机）仅支持轻量化模型推理。

5. 冷启动成本

初始配置复杂（如向量数据库选型、Prompt 模板调试），需 2-4 周适配期。

7、MaxKB

MaxKB = Max Knowledge Base，是一款基于大语言模型和 RAG 的开源知识库问答系统，广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。作为一款专注于知识库问答场景的软件产品，MaxKB 能够为企业的智能化进程注入新的动力，助力企业实现“提质增效”的目标。在知识库管理方面，MaxKB 帮助企业实现知识采集、知识入库、知识库构建的全流程自动化；在场景化智能搜索方面，MaxKB 能够解析用户输入的问题并匹配检索知识库；在回复准确性方面，MaxKB 采用了成熟的 LLM + RAG 技术，能够最大限度地降低大模型幻觉对知识搜索准确性的干扰，提高企业对业务数据的分类与召回能力；安全性方面，MaxKB 支持本地部署和调用本地大模型，有效管控企业使用知识库时越级访问的风险，以及公有模型在数据传输方面可能存在的安全隐患。借助 MaxKB，企业用户可以快速上线业务 AI 助手，将生成式 AI 能力应用于业务数据管理、内部资料查询、线上客户服务等领域，优化业务服务流程并切实提升用户体验。

产品优势

开箱即用支持直接上传文档 / 自动爬取在线文档，支持文本自动拆分、向量化和 RAG（检索增强生成），有效减少大模型幻觉，智能问答交互体验好；
快速接入支持零编码嵌入到第三方业务系统，以及快速接入企业微信、钉钉、飞书、公众号等应用，让已有系统快速拥有智能问答能力，提高用户满意度；
灵活编排内置强大的工作流引擎和函数库，支持编排 AI 工作过程，满足复杂业务场景下的需求；
模型中立支持对接各种大模型，包括本地私有大模型（Llama 3 / Qwen 2 等）、国内公共大模型（DeepSeek / SILICONFLOW / 通义千问 / 腾讯混元 / 字节豆包 / 百度千帆 / 智谱 AI / Kimi 等）和国外公共大模型（OpenAI / Azure OpenAI / Anthropic / Gemini 等）。

整体架构

实现原理

操作流程

MaxKB和Dify的区别

MaxKB 和 Dify 都是基于大语言模型技术的开源项目，两者在产品定位以及能力上存在差异：

产品定位不同：Dify 定位于大模型应用的开发平台，属于中间件范畴；MaxKB 定位于基于大模型和 RAG 的智能问答助手，属于开箱即用的最终应用。
产品能力对比：以下表格是 Dify 官方提供的与 LangChain、Flowise 等产品的能力对比；MaxKB 是基于LangChain构建的应用，并补齐了 LangChain 在 Workflow 和 SSO 等企业级功能上面的空白。暂时无法在飞书文档外展示此内容

8、FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！虽然开源的大模型已经有很多，但是如果基于这些大模型搭建自己的知识库并不容易，需要非常复杂的实现过程。而FastGPT正是为了解决这个问题而诞生的。简单的说我们可以将自己的资料全都喂给它，创建一个属于自己的知识库。它会对资料进行整理，当你询问它问题的时候，就可以直接调用知识库里的资料进行回答，相当于为自己定制了一个大语言模型。

FastGPT 能力

专属 AI 客服通过导入文档或已有问答对进行训练，让 AI 模型能根据你的文档以交互式对话方式回答问题。
简单易用的可视化界面 FastGPT 采用直观的可视化界面设计，为各种应用场景提供了丰富实用的功能。通过简洁易懂的操作步骤，可以轻松完成 AI 客服的创建和训练流程
自动数据预处理提供手动输入、直接分段、LLM 自动处理和 CSV 等多种数据导入途径，其中“直接分段”支持通过 PDF、WORD、Markdown 和 CSV 文档内容作为上下文。FastGPT 会自动对文本数据进行预处理、向量化和 QA 分割，节省手动训练时间，提升效能。
工作流编排基于 Flow 模块的工作流编排，可以帮助你设计更加复杂的问答流程。例如查询数据库、查询库存、预约实验室等。
强大的 API 集成 FastGPT 对外的 API 接口对齐了 OpenAI 官方接口，可以直接接入现有的 GPT 应用，也可以轻松集成到企业微信、公众号、飞书等平台。

FastGPT 特点

项目开源 FastGPT 遵循附加条件 Apache License 2.0 开源协议，你可以 Fork 之后进行二次开发和发布。FastGPT 社区版将保留核心功能，商业版仅在社区版基础上使用 API 的形式进行扩展，不影响学习使用。
独特的 QA 结构针对客服问答场景设计的 QA 结构，提高在大量数据场景中的问答准确性。
可视化工作流通过 Flow 模块展示了从问题输入到模型输出的完整流程，便于调试和设计复杂流程。
无限扩展基于 API 进行扩展，无需修改 FastGPT 源码，也可快速接入现有的程序中。
便于调试提供搜索测试、引用修改、完整对话预览等多种调试途径。
支持多种模型支持 GPT、Claude、文心一言等多种 LLM 模型，也支持自定义的向量模型。

知识库核心流程图

9、RagFlow

RagFlow是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。RAGFlow 是由 Infiniflow 团队在 GitHub 上开源的一款基于深度文档理解构建的开源 RAG 引擎。

主要功能

🍭 “Quality in, quality out”

基于深度文档理解，能够从各类复杂格式的非结构化数据中提取真知灼见。
真正在无限上下文（token）的场景下快速完成大海捞针测试。

🍱 基于模板的文本切片

不仅仅是智能，更重要的是可控可解释。
多种文本模板可供选择

🌱 有理有据、最大程度降低幻觉（hallucination）

文本切片过程可视化，支持手动调整。
有理有据：答案提供关键引用的快照并支持追根溯源。

🍔 兼容各类异构数据源

支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。

🛀 全程无忧、自动化的 RAG 工作流

全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统。
大语言模型 LLM 以及向量模型均支持配置。
基于多路召回、融合重排序。
提供易用的 API，可以轻松集成到各类企业系统。

RAGFlow 的应用场景

• 企业知识库搜索：帮助企业构建智能搜索系统，提升内部知识管理能力
• 法律 & 金融文档解析：支持合同、法律条款、财报的精准检索与问答
• 学术 & 研究：研究人员可快速查找论文内容，提高资料整理效率
• 智能客服 & Chatbot：结合 LLM，为用户提供智能化、有理有据的回答
• 网站 & 论坛内容索引：优化站内搜索，提高用户体验

RAGFlow VS 传统检索方式

尽管 LLM 极大地推动了自然语言处理 (NLP) 的发展，但“垃圾进垃圾出”的现状依然没有改变。为了应对这种情况，RAGFlow 引入了两项与其他检索增强生成 (RAG) 产品不同的独特功能。

细粒度的文档解析：文档解析涉及图像和表格，您可以根据需要灵活地进行干预。
可追踪的答案，减少幻觉：您可以信任 RAGFlow 的回应，因为您可以查看支持它们的引文和参考资料。

RAG常见13种分块策略大总结

选择策略时需考虑以下因素：

文档类型：结构化（如报告）适合段落分块，非结构化（如聊天记录）适合语义分块。
查询复杂性：复杂查询需语义或代理分块，简单查询可用固定长度分块。
资源可用性：计算资源有限时，优先固定长度或基于句子的分块。
期望结果：速度优先选固定长度，准确性优先选语义分块，上下文优先选滑动窗口。

支持的嵌入模型

RAGFlow 提供两个 Docker 镜像版本，v0.17.2-slim并且v0.17.2：

infiniflow/ragflow:v0.17.2-slim（默认）：没有嵌入模型的 RAGFlow Docker 镜像。
infiniflow/ragflow:v0.17.2：嵌入模型的 RAGFlow Docker 映像包括：
- BAAI/bge-base-en-v1.5
- BAAI/bge-large-en-v1.5
- BAAI/bge-small-en-v1.5
- BAAI/bge-small-zh-v1.5
- jinaai/jina-embeddings-v2-base-en
- jinaai/jina-embeddings-v2-small-en
- nomic-ai/nomic-embed-text-v1.5
- sentence-transformers/all-MiniLM-L6-v2
- BAAI/bge-large-zh-v1.5
- BAAI/bge-reranker-v2-m3
- maidalun1020/bce-embedding-base_v1
- maidalun1020/bce-reranker-base_v1
- 内置嵌入模型：
- 在 RAGFlow UI 中选择嵌入模型后，这些模型就会被下载：

10、LangFlow

Langflow 是一种用于构建多代理和 RAG 应用程序的全新可视化框架。它是开源的、由 Python 提供支持的、完全可定制的，并且与 LLM 和向量存储无关。其直观的界面可以轻松操作 AI 构建块，使开发人员能够快速制作原型并将他们的想法转化为强大的现实世界解决方案。 Langflow 凭借其用户友好的界面和强大的功能，使开发人员能够快速制作原型并构建 AI 应用程序。无论您是经验丰富的 AI 开发人员还是刚刚起步，Langflow 都能为您提供实现 AI 创意所需的工具。

一句话总结： LLM开源低代码工具，可视化工作流构建框架。

核心功能

Python自定义：LangFlow支持使用Python代码对组件进行自定义，提供了高度的灵活性和扩展性。用户可以根据具体需求，自定义组件的功能和行为。
可视化工作流构建：LangFlow提供了直观的可视化界面，用户可以通过简单的拖拽操作，轻松创建复杂的AI工作流。无需编写大量代码，即可完成从数据输入到结果输出的整个流程设计。支持与 LangSmith、LangFuse 或 LangWatch 集成；
多代理支持：LangFlow支持多代理的编排和对话管理，能够处理复杂的任务和交互。用户可以创建多个智能体，协同完成复杂的AI任务。
即时测试环境：LangFlow内置了Playground功能，用户可以在构建工作流的过程中实时进行测试和调试，确保每个环节的正确性。
预构建组件和模板：LangFlow提供了丰富的预构建组件和模板，涵盖了从数据处理、模型调用到结果输出等各个环节。用户可以快速组合这些组件，实现自己的业务逻辑。
生态系统集成：作为任何模型、API 或数据库的可重用组件。
企业级安全性和可扩展性：使用免费的 DataStax Langflow 云服务；免费云服务：无需设置，几分钟内即可启动；

LangFlow 的技术原理

基于有向无环图（DAG）的执行引擎：当工作流运行时，LangFlow 会根据组件和连接线构建一个有向无环图（DAG）。DAG 的节点（组件）会按照依赖关系排序并依次执行，每个节点的输出结果会传递给依赖它的下一个节点，确保了工作流的高效执行和结果的正确性。
组件化设计与灵活性：LangFlow 的组件化设计支持用户根据需求选择或自定义组件。支持与多种模型、API 和数据库集成，开发者可以轻松扩展和复用组件。LangFlow 提供了数百个预构建的组件，满足不同场景的需求。
RAG（检索增强生成）支持：LangFlow 提供了对 RAG 的支持，通过智能文本分块模块将长文档结构化存储到向量数据库中，在查询时通过向量检索快速定位相关信息。
Python 驱动与开源特性：LangFlow 基于 Python 开发，完全开源，用户可以通过 Python 完全自定义工作流或扩展功能。

Langflow vs Dify vs Flowise vs AutoGPT 对比

Langflow 的局限性

不适合高并发生产环境：单线程架构和缺乏负载均衡，无法支撑大规模请求。
企业级功能缺失：无RBAC权限控制、审计日志或数据加密功能。
依赖外部服务：若使用云模型（如OpenAI），需自行处理API密钥管理和计费风险。

选型决策树

需要企业级功能（权限、审计） → Dify
快速搭建非技术产品原型 → Flowise
开发者定制复杂 LLM 工作流 → Langflow
自动化目标驱动型任务 → AutoGPT

总结与建议

LangFlow：如果你需要构建复杂的AI工作流，且有一定的Python基础，LangFlow是一个很好的选择。它提供了高度的灵活性和定制化能力，适合开发者和技术团队使用。
Dify：如果你的企业需要一个全面的AI应用开发平台，且希望在生产环境中进行部署和管理，Dify是一个强大的工具。它支持多种模型选择，具有良好的用户友好度和扩展性。
Coze：如果你是初学者或需要快速上手构建AI应用，特别是聊天机器人，Coze是一个不错的选择。它操作简便，适合C端用户和初级开发者使用。

Flowise 与 LangFlow 的技术差异

Agents功能比较

Flowise Agents:

CSV Agent: 从CSV文件中检索和操作数据。
JSON Agent: 支持JSON数据的提取、转换和操作。
SQL Agent: 使用SQL查询与数据库交互，检索和更新数据。
Vector Store Router: 根据预定义规则提供路由机制，将请求发送到不同的向量存储中。

LangFlow Agents:

Auto GPT: LangFlow提供了一个基于React框架的完整对话代理，具备广泛的语言处理能力。
Baby AGI: LangFlow提供了一个预训练的对话代理，旨在实现高效的语言理解和响应生成。
Conversational Agent: 允许用户定义对话流程和逻辑，创建交互式对话。
LLM (Language Model Memory) Agent: 结合了记忆和上下文，实现更具上下文感知的语言处理。

Chain功能比较

Flowise Chains:

Conversation Chain: 实现与用户的无缝对话，支持来回交互。
Retrieval QA Chain: 从预定义的知识库中检索用户查询的答案。
SQL Database Chain: 集成SQL数据库，用于数据检索和操作。
Vector DB Chain: 访问和操作存储在向量数据库中的数据。

LangFlow Chains:

ConversationChain：促进多轮对话，支持复杂的对话流程。
Retrieval QA Chain：允许使用预定义的答复，提供基于检索的问题解答功能。
LLM Chain：利用语言模型记忆增强语言理解能力，并生成上下文感知响应。
LLMMathChain：在语言处理管道中提供数学计算功能。

Tools和Utilities的比较

Flowise Utilities:

Wrappers: 提供文本请求包装器，与外部请求库无缝集成。
Vector Stores: 管理和组织数据的向量表示，实现高效的检索和比较。
Metadata Filter: 根据特定的元数据条件过滤数据，实现高效的数据处理和检索。

LangFlow Tools:

Text Splitters: 将文本拆分为有意义的单元，以便进一步处理或分析。
Embeddings: 为各种自然语言处理任务生成文本的向量表示。
LMS (Language Model Store): 存储和管理预训练的语言模型，以实现高效的访问和利用。
Prompts: 提供预定义的提示，以启动和引导用户交互。

❝

LangFlow 注重提供直观的可视化工作流设计、强大的自动化功能和灵活的插件扩展。其详细的文档和活跃的社区支持使用户可以快速上手并深入使用。
Flowise 强调简洁的用户界面、预构建的集成模块和详细的日志监控功能。其模块化架构和丰富的自定义脚本支持提供了极大的灵活性和扩展性。

11、xpert

Xpert AI 是一个开源的企业级 AI 系统，完美融合了智能体编排和数据分析两大平台。

智能体编排平台：通过协调多个智能体（Agents）的协作，完成复杂任务。它通过高效的管理机制将不同类型的 AI 智能体整合在一起，利用各自的能力解决多维度问题。
数据分析平台：基于云计算的多维建模、指标管理、BI 展示的敏捷数据分析平台，支持连接多种数据源，实现高效、灵活的数据分析和可视化，并提供多种智能分析功能和工具，帮助企业快速、准确地发现业务价值，做出经营决策。

智能体编排平台

智能体编排平台（Agent Orchestration Platform）是近年来 AI 领域兴起的框架或系统，用于协调多个智能体（Agents）的协作，完成复杂任务。它通过高效的管理机制将不同类型的 AI 智能体整合在一起，利用各自的能力解决多维度问题。 Xpert AI 平台的关键功能：

任务分解与分配：将复杂任务分解为小任务，并根据智能体的能力分配给最合适的智能体。
上下文管理：确保智能体之间的上下文一致性，使任务协作更加流畅。
动态智能体调用：根据实时需求，动态调用或调度特定智能体。
跨工具集成：通过与外部工具和 API 的集成，扩展智能体的功能范围。
反馈与学习：系统通过用户反馈不断优化智能体行为和任务编排策略。
智能助理：通过大语言模型实现平台的智能助理功能，与人类协同工作。
知识库：通过集成企业内部和外部的知识资源，知识库能够帮助智能体更好地理解和处理复杂任务。

数据分析平台

Xpert 数据分析平台是一个企业级的数据分析和管理系统，集成多种功能模块，旨在帮助企业进行高效的数据分析和决策支持。

语义模型

Xpert 数据分析平台支持多种主流数据库和数据仓库系统。平台自有 OLAP 引擎具备快速分析、多维分析、灵活的数据切片和切块、以及实时数据分析等能力。此外，还支持直连客户的数据库或数据仓库，无需数据迁移或传输，提高数据安全性，保证数据实时性，避免数据传输和同步过程中的延迟和不准确性，为客户提供便捷高效的数据分析服务。创建需要连接的数据源语义模型负责将技术数据组织成业务数据，供业务人员查询分析使用。Xpert 数据分析平台支持 SQL 建模和 MDX 建模两种语义建模方式。SQL 建模主要面向简单问题的分析模型，将数据查询解析为 SQL 发送至数据源进行查询。MDX 建模则以 MDX 语言为基础，充分发挥多维建模的强大能力，为用户提供广阔的数据分析空间。你可以浏览或创建语义模型.

指标管理

指标管理模块是一个全面而强大的解决方案，旨在帮助企业建立和管理核心业务指标。该模块提供灵活的指标定义、计算、监控和报告功能，以支持企业对业务表现和绩效的准确衡量和深入分析。通过集成不同数据源和系统，模块能够实现数据的收集、建模和整合，确保指标的数据质量和准确性。同时，我们提供可视化的仪表板和指标应用程序，便于用户快速查看和分析关键指标的趋势和表现。通过指标管理模块，企业可以实现对关键业务领域的精细化管理，促进数据驱动的决策，提高业务绩效和竞争力。

故事仪表板

Xpert 数据分析平台中的故事（Story）功能是一种可视化报告工具，帮助用户将数据转化为有意义的叙述。它通常由一系列页面或幻灯片组成，每个页面或幻灯片都可以包含不同的图表、表格和文本。数据分析以故事为组件基础，拖拽创建故事可以帮助用户分析语义模型背后的数据。基于语义模型如何创建故事报告，使用不同组件组装出分析报表。

Xpert AI vs ThoughtSpot vs Supersonic（AI+BI大模型深度对比）

选型决策树

匹配场景：

1. 工业实时决策 → Xpert AI

用例：工厂设备预测性维护 + 生产看板
关键需求：边缘计算、多模态数据、行业模型

2. 高管自助分析 → ThoughtSpot

用例：自动生成战略报告 + 趋势洞察
关键需求：自然语言交互、低学习成本

3. 高性能AI+BI融合 → Supersonic

用例：实时推荐系统优化 + AB测试看板
关键需求：低延迟推理、流批一体架构

12、unsloth

Unsloth是一个开源的大语言模型微调工具，基于优化计算步骤和GPU内核，使用OpenAI的Triton对模型的计算过程进行重写，大幅提升模型的训练速度，降低训练中的显存占用。Unsloth能够保证重写后的模型计算的一致性，实现中不存在近似计算，模型训练的精度损失为零。Unsloth支持绝大多数主流的GPU设备，包括V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40等，支持对LoRA和QLoRA的训练加速和高效显存管理，支持Flash Attention。 Unsloth使 Llama-3、Mistral、Phi-4 和 Gemma 等大型语言模型的微调速度提高 2 倍，内存使用量减少 70%，并且准确度不会降低！我们的文档将指导您训练自己的自定义模型。它涵盖了安装和更新Unsloth、创建数据集、运行和部署模型的基本知识。

主要功能

高效的微调性能 Unsloth 通过优化内核和手动反向传播引擎，实现了 2 倍的训练速度提升。在内存使用方面，Unsloth 比传统的微调方法减少了 70% - 80% 的内存占用。
广泛的模型支持 Unsloth 支持多种流行的 LLM 模型，包括 Llama 3.3、Mistral、Phi-4、Qwen 2.5 和 Gemma 等。支持的模型：https://docs.unsloth.ai/get-started/all-our-models
动态 4 位量化 Unsloth 引入了动态 4 位量化技术，通过动态选择不量化某些参数，大大提高了模型的准确性，同时只比 BnB 4 位量化多使用了不到 10% 的显存（VRAM）。
长上下文支持支持长上下文训练，例如在 Llama 3.3(70B)模型上，在 80GB 的 GPU 上实现长达 89K 的上下文长度，远超传统方法。
多平台兼容支持 Linux 和 Windows(通过 WSL)操作系统，且与 Hugging Face 的 TRL、Trainer 等工具无缝集成。

Unsloth 的技术原理

手动优化计算步骤：手动推导和优化计算密集型的数学步骤，减少不必要的计算开销。例如，在神经网络的反向传播过程中，基于自定义的高效实现，避免传统框架中存在的冗余计算。
手写 GPU 内核：用 OpenAI 的 Triton 语言编写专门的 GPU 内核，内核针对特定的计算任务进行高度优化。基于这种方式，充分用 GPU 的并行计算能力，显著提升训练和推理的速度。
动态量化：引入动态量化技术，特别是在 4 位量化方面进行优化。动态量化根据模型的实际需求，动态地选择是否对某些参数进行量化，在不显著增加显存使用的情况下，提高模型的准确性和性能。

Unsloth 使用要求

系统要求

操作系统：适用于Linux和Windows。
自 2018 年起支持 NVIDIA GPU。最低 CUDA 功能 7.0（V100、T4、Titan V、RTX 20、30、40x、A100、H100、L40 等）检查您的 GPU！ GTX 1070、1080 可以运行，但速度很慢。
如果您有不同版本的 torch、transformers 等，pip install unsloth 将自动安装这些库的所有最新版本，因此您不必担心版本兼容性。
您的设备必须具有、xformers和torch支持。BitsandBytestriton
Unsloth 仅在您拥有 NVIDIA GPU 时才有效。确保您还有足够的磁盘空间来训练和保存模型

微调 VRAM 要求

OOM 或内存不足的一个常见问题是您将批处理大小设置得太高。将其设置为 1、2 或 3 以使用较少的 VRAM。有关上下文长度基准，请参见此处。

查看此表，了解按模型参数和微调方法排序的 VRAM 要求。QLoRA 使用 4 位，LoRA 使用 16 位。请记住，有时可能需要更多 VRAM，因此这些数字是绝对最小值：

13、ViDoRAG

ViDoRAG 是一种针对视觉文档复杂推理的新型多智能体 RAG 框架,ViDoRAG 采用基于高斯混合模型（GMM）的混合策略，以有效处理多模态检索。通过动态迭代推理代理进行视觉文档检索增强生成。

主要核心功能

多模态检索：整合视觉和文本信息，建立视觉与文本的语义关联，实现精准的文档检索。动态迭代推理：多智能体协作（Seeker、Inspector、Answer Agent），逐步细化答案，提升推理深度和准确性。多模态生成：支持单跳和多跳推理，处理复杂的视觉文档内容，生成包含图文、视频片段的复合答案。生成一致性保障：基于AnswerAgent确保最终答案的准确性和一致性。增强可信度：通过视觉证据减少生成内容的虚构性，提升可解释性。高效生成：动态调整检索结果数量，减少计算开销，提升生成效率。

ViDoRAG 的核心创新

ViDoSeek 数据集：为视觉文档 RAG 设计的全新基准

ViDoRAG 的优势首先体现在它基于 ViDoSeek 数据集进行优化：

传统视觉问答（VQA）数据集通常是单张图片匹配单个问题，而 ViDoSeek 涵盖多文档、多模态、多层次推理场景。
数据集包含文本、图表、表格、复杂布局等不同类型的内容，更贴近现实应用。 🎯 ViDoSeek 让 RAG 评估更精准，问题检索到的答案是唯一的，而不是依赖单一图像或文档！

多模态混合检索（Multi-Modal Hybrid Retrieval）

传统的 OCR 或视觉检索往往难以做到精准召回。ViDoRAG 采用高斯混合模型（GMM），动态调整检索策略：

✔️ 结合文本 & 视觉信息，保证信息完整性

✔️ 自动调节 Top-K 召回，减少无用信息干扰

✔️ 提高检索精准度，避免内容丢失 🎯 通过智能调整检索策略，ViDoRAG 保证了既高效又精准的信息获取！

多智能体（Multi-Agent）协作推理

在 RAG 生成阶段，ViDoRAG 设计了三大智能体，形成迭代式推理机制：

🤖 Seeker Agent：快速扫描文档，找到可能相关的内容

🔍 Inspector Agent：细粒度分析，筛选无关信息，并进行初步总结 📝 Answer Agent：最终生成答案，确保一致性

🎯 相比传统 RAG 仅依赖 LLM 生成答案，ViDoRAG 让生成过程更具逻辑性和稳健性！

ViDoRAG 为视觉文档理解带来了什么？

✅ 新数据集 ViDoSeek，填补多文档 RAG 评测空白

✅ 多模态混合检索，文本+视觉特征融合，优化召回

✅ 多智能体协作推理，增强逻辑性和稳健性

✅ 实验结果领先10%+，在复杂视觉文档理解任务上表现卓越

14、SearXNG

SearXNG 是一款免费的互联网元搜索引擎，可汇总多达 229 个搜索服务的结果。用户不会被跟踪或分析。此外，SearXNG 可通过 Tor 使用，实现在线匿名。

SearXNG 的功能亮点

隐私保护 SearXNG 不记录用户的个人信息或搜索历史，其隐私优先的设计使其成为传统搜索引擎的替代方案。据 Medium([2]) 报道，SearXNG 的搜索请求是匿名的，不会与用户的 IP 地址绑定。这种机制不仅保护了用户隐私，还减少了广告追踪的可能性。
多样化的搜索结果 SearXNG 聚合了多个搜索引擎的结果，并将它们整合到一个页面中。例如，您可以同时获取来自 Google、DuckDuckGo 和学术数据库的搜索结果，从而节省时间并获得更全面的信息。
高度可定制化 SearXNG 提供多种定制选项，包括界面主题、搜索引擎选择、内容过滤和语言偏好等。用户可以根据自己的需求调整搜索体验。例如，GitHub([3]) 的开发者社区提供了详细的指导，帮助用户修改 SearXNG 的主页和主题。

与主流搜索引擎（如 Google 和 Bing）相比，SearXNG 的最大优势在于其隐私保护和无广告体验。此外，与 DuckDuckGo 等隐私搜索引擎相比，SearXNG 提供了更高的定制化选项，可以满足不同用户的个性化需求。

15、LLM4AD

LLM4AD是一个基于大语言模型（LLM）的算法设计平台，旨在通过智能化的方式大幅提升算法设计的自动化程度、效率和创造力。无论是优化问题、机器学习模型设计，还是科学发现中的算法，LLM4AD 都能为你提供强大的支持。平台集成了多种搜索方法、任务评估接口和LLM接口，帮助用户快速自动设计算法。

平台核心模块介绍

搜索方法：支持单目标和多目标搜索，涵盖进化算法、邻域搜索等多种优化策略。

算法设计任务：支持组合优化（TSP, CVRP, JSSP, Bin Packing, Set Cover, 等）、机器学习、科学发现等几十种内置算法设计任务。

LLM接口：支持DeepSeek, GPT, 等大模型，通过提示词引导LLM生成新算法，支持本地和远程调用，并行化处理提升效率。

任务评估接口：提供安全的评估沙盒，确保算法在不同任务上的鲁棒性和有效性。

图形用户界面（GUI）：轻松配置实验并实时监控结果。

扩展性：支持用户自定义搜索方法、任务和LLM采样器，满足个性化和应用需求。

16、DB-GPT

DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。目的是构建大模型领域的基础设施，通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力，让围绕数据库构建大模型应用更简单，更方便。 🚀 数据3.0 时代，基于模型、数据库，企业/开发者可以用更少的代码搭建自己的专属应用。

关键特性

一、私域问答&数据处理&RAG(Retrieval-Augmented Generation) 支持内置、多文件格式上传、插件自抓取等方式自定义构建知识库，对海量结构化，非结构化数据做统一向量存储与检索

二、多数据源&GBI(Generative Business Intelligence) 支持自然语言与Excel、数据库、数仓等多种数据源交互，并支持分析报告。

三、多模型管理海量模型支持，包括开源、API代理等几十种大语言模型。如LLaMA/LLaMA2、Baichuan、ChatGLM、文心、通义、智谱、星火等。

四、自动化微调围绕大语言模型、Text2SQL数据集、LoRA/QLoRA/Pturning等微调方法构建的自动化微调轻量框架, 让TextSQL微调像流水线一样方便。

五、Data-Driven Multi-Agents&Plugins 支持自定义插件执行任务，原生支持Auto-GPT插件模型，Agents协议采用Agent Protocol标准六、隐私安全通过私有化大模型、代理脱敏等多种技术保障数据的隐私安全

几大核心能力

知识库
数据对话
Excel对话
数据库对话
报表分析
Agents

几款Text2sql 产品对比

场景适配指南：

Chat2DB：依赖OpenAI API，数据出境需合规审查。
DB-GPT：私有化部署需专业运维团队。
Vanna：历史数据质量直接影响结果准确性。
WrenAI：成本高，适合中大型企业。

17、MinerU

MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中，我们将会集中精力解决科技文献中的符号转化问题，希望在大模型时代为科技发展做出贡献。相比国内外知名商用产品MinerU还很年轻，如果遇到问题或者结果不及预期请到issue提交问题，同时附上相关PDF。其核心部分包括：

Magic-PDF：将 PDF（包括扫描版）精准转换为 Markdown 格式，保留标题、段落、列表等结构，自动移除页眉、页脚、页码，支持图像、表格提取及公式转 LaTeX。
Magic-Doc：解析网页、电子书（如 epub、mobi），提取图文、表格及多语言内容（支持 176 种语言）。
多模态处理：内置 OCR 技术，可识别 84 种语言的扫描文档，自动纠正乱码，适配复杂排版

主要功能

删除页眉、页脚、脚注、页码等元素，确保语义连贯
输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版
保留原文档的结构，包括标题、段落、列表等
提取图像、图片描述、表格、表格标题及脚注
自动识别并转换文档中的公式为LaTeX格式
自动识别并转换文档中的表格为HTML格式
自动检测扫描版PDF和乱码PDF，并启用OCR功能
OCR支持84种语言的检测与识别
支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检
支持纯CPU环境运行，并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台

PDF提取流程及技术架构

PDF文档相比网页、电子书等结构标准化的文件含有更多复杂的元素，处理更具挑战性和代表性，所以接下来，将以PDF为代表，重点介绍 MinerU 如何实现高质量文档数据提取。

MinerU PDF文档提取，主要由4大环节构成：

PDF文档分类预处理 MinerU支持不同类型的PDF文档提取，包括文本型PDF、图层型PDF、扫描版PDF；初始阶段，输入PDF文档，系统会启用文档分类模块，提取PDF元数据，检测是否有乱码，是否是扫描版，进行PDF类型识别预处理。（注：文本型PDF：文字可以复制；图层型PDF：文字不可复制，解析乱码）
模型解析，PDF内容提取紧接着，利用高质量PDF模型解析工具链进一步对PDF文档进行Layout区块布局检测，准确定位标题、正文、图片、表格、脚注、边注等重要元素位置，与此同时，结合公式检测模型定位公式区域。最后结合高质量公式识别及OCR技术提取准确的文本、公式内容，存储到JSON文件中。
管线处理，支持多种格式输出模型处理的数据会输入管线，进行后处理：确定块级别顺序，删减无用元素，依靠版面对内容排序、拼装，保证正文流畅。处理方式包括：坐标修复、高iou处理、图片、表格描述合并、公式替换、图标转储、Layout排序、无用移出、复杂布局过滤等。管线处理好的文档信息会变为一个统一的中间态：middle-json（包含PDF解析出来的所有的信息），开发者可以按照使用需求自定义输出Layout、Span、Markdown、Content list等不同的格式。（注：Content list是作者团队开发的一套列表样的序列结构格式，比Markdown格式能保留更多信息，可用于多模态、NLP等大模型训练）
PDF提取结果质检团队利用由论文、教材、试卷、研报等多种类型文档组成的人工标注的PDF自测评测集，对整个流程进行检测，保证每次开发调优、算法改进后，提取效果越来越好；同时利用可视化质检工具，将PDF提取结果进行人工质检与标注，再反馈给模型训练，进一步提升模型能力。

详细项目全景图如下：

同类型产品对比（针对PDF的RAG）

场景适配指南：

18、MetaGPT

MetaGPT是一种多智能体框架，其利用SOP（Standard Operating Procedures，标准作业程序）来协调基于大语言模型的多智能体系统，从而实现元编程技术。该框架使用智能体模拟了一个虚拟软件团队，包含产品经理、架构师、项目经理、工程师、质量工程师等角色，并引入SOP成为框架的虚拟软件团队的开发流程。其专注于软件开发，覆盖了从需求分析到代码实现的全生命周期覆盖。在MetaGPT中，多智能体被视为一个智能体社会，其中多智能体=智能体+环境+标准流程（SOP）+通信+经济，这些组件各自发挥着重要的作用：

智能体：在单个智能体的基础上，扩展了多智能体定义。在多智能体系统中，可以由多个单智能体协同工作，每个智能体都具备独特有的LLM、观察、思考、行动和记忆。
环境：环境是智能体生存和互动的公共场所。智能体从环境中观察到重要信息，并发布行动的输出结果以供其他智能体使用。
标准流程（SOP）：这些是管理智能体行动和交互的既定程序，确保系统内部的有序和高效运作。
通信：通信是智能体之间信息交流的过程。它对于系统内的协作、谈判和竞争至关重要。
经济：这指的是多智能体环境中的价值交换系统，决定资源分配和任务优先级。

MetaGPT框架

MetaGPT的设计分为两个层次：基础组件层和协作层。

基础组件层

基础组件层以AI Agent为核心，提供了观察、思考等能力。其建立了个体智能体操作和在系统范围内进行信息交换所需的核心模块，包括环境、记忆、角色、行动和工具，如图2所示。

环境：为智能体提供协作工作空间和交流平台。
记忆：存储和检索历史消息。
角色：根据领域封装专业技能和工作流程。
行动：执行模块化的子任务。
工具：提供常见的服务和工具。这一层为智能体在分配的角色中运行提供了基础设施，使它们可以相互交互并与系统交互。

协作层

其建立在基础组件层的基础上，协调各个智能体共同解决复杂问题。其提供了两种基本机制：知识共享和封装工作流程。

知识共享：该机制允许智能体有效地交换信息，为共享的知识库做出贡献。智能体可以以不同粒度存储、检索和共享数据。它不仅可以加强协调能力，还减少了冗余的通信，提高了整体的运行效率。
封装工作流程：该机制利用SOP将复杂任务分解为较小、可管理的子任务。它将这些子任务分配给适合的智能体，并通过标准化的输出对其进行监控，确保它们的行动与总体目标一致。

在这个框架中，MetaGPT中的智能体能力得到了显著增强。智能体的实例化，由专门的角色提示引导，被称为"锚定智能体"，为角色提供了观察、思考、反思和知识积累的能力。这些角色通过已建立的订阅和发布方法与环境进行交互。基础和协作层的分离有利于实现模块化，同时确保智能体的个人和集体能力。基础组件提供了可重用的构建模块和工具，而协作模块则实现了有目的的协调。基础和协作层的划分促进了模块化，同时确保了个体和集体代理的能力。组件提供了可重用的构建块和实用程序，而协作模块整合了有目的的协调。

MetaGPT实现机制

角色定义

MetaGPT框架支持创建各种专业类的角色，如产品经理、架构师等。基础角色类由一组关键属性定义：名称、简介、目标、约束和描述。目标表示角色寻求完成的主要责任或目标。约束表示角色在执行行动时必须遵循的限制或原则。约束可以规定如下：“你编写的代码应符合PEP8等代码规范，具有模块化、易于阅读和维护的特点”。描述提供了额外的具体信息，以帮助建立更全面的角色定义。 MetaGPT框架提供的全面角色定义使得其可以创建高度专业化的基于LLM的智能体，每个智能体都针对特定的领域和目标进行了定制。角色定义不仅引入了基于预期功能的行为指导，而且有助于创建多样化和专业化的智能体，每个智能体都是其领域的专家。

思考与反思（Think & Reflect）：角色可以检索角色描述来构建思考，然后通过_think()函数来反思需要做什么并决定下一步的行动。
观察（Observe）：角色可以观察环境，并根据观察结果使用_observe()函数进行思考和行动。它们会关注重要信息，并将其纳入记忆中，以丰富其上下文理解并为未来的决策提供信息。
广播消息（Broadcast messages）：角色可以使用_publish_message()函数将消息广播到环境中。这些消息包含有关当前执行结果和相关行动记录的详细信息，用于发布和共享信息。
知识沉淀与行动（Knowledge precipitation & Act）：角色不仅是广播者，也是环境信息的接收者。角色可以评估传入的消息的相关性和及时性，从共享环境中提取相关知识，并维护一个内部的知识库以支持决策。它们通过咨询LLM，并利用其具有丰富上下文信息和自我知识的来执行行动。执行结果被封装为消息，而规范性组件则由环境共享。
状态管理（State management）：角色可以通过更新工作状态和监控待办事项列表来跟踪它们的行动。这使得角色能够按顺序处理多个行动而不中断。在执行每个行动时，角色首先锁定其状态。完成行动后，将状态标记为解锁。这样可以防止其他行动中断工作流程。

实例化SOP的Prompt

MetaGPT使用提示（Prompt）将现实世界的标准作业程序（SOP）转化为明确定义的智能体工作流。该过程涉及使用提示来实例化SOP，并基于已建立的实践提供逐步指导，确保复杂序列任务的一致和结构化执行。首先，我们详细介绍Action类，然后展示了如何设计标准化行动级别细粒度提示。在MetaGPT框架中，Action作为智能体执行特定任务的原子单位，通过自然语言进行指定。关键属性包括：

前缀（Prefix）：将角色特定的前缀注入到提示中，以建立角色上下文。使用set_prefix()方法配置角色特定提示的标识符。
LLM代理（LLM proxy）：每个Action包含一个LLM代理，可以通过aask()方法调用该代理，使用以自然语言提示表达的上下文输入来丰富行动细节。此外，可以在Action类中实现各种角色特定上下文解析函数。这些函数旨在从输入中提取并提供足够的上下文信息给LLM。
标准化的输出模式（Standardized outputs schema）：使用结构化表示来定义预期的输出模式，用于提取结构化数据。标准化输出模式。一个定义预期输出模式的结构表示，用于提取结构化数据。
重试机制（Retry mechanism）：通过定义尝试次数和等待时间来实现对行动进行重试，以提高稳健性。

标准化输出的行动

MetaGPT实例化工作流的有效性在很大程度上依赖于每个行动的标准化输出。这些输出利用专家领域知识和行业最佳实践，将工作流程调整到特定的角色和上下文中。结构化输出设计具有以下目的：标准化的输出保障了一致的LLM结果，这些结果是可预测、可重复的，并符合智能体的责任范围。它们通过设定输出期望来引导高质量、结构化和基于任务的特定LLM生成。此外，标准化的模式充当了蓝图，将LLM行为限制在适合角色的边界内。同时，这有助于保持对目标任务的关注，防止偏离目标。由于行动是综合角色基准指南的一部分，这种角色意识的引导确保输出与真实世界的质量标准相一致。总之，在MetaGPT中标准化输出设计和实现为处理复杂任务提供了强大的工具。将自然语言中定义的复杂任务转化为标准化输出促进了协作的一致性，从而减少了可能导致不连贯的多轮对话交互。此外，它可以清晰、一致地表示结构信息，这在仅通过自然语言传达时可能存在困难，特别是对于基于LLM的智能体。此外，通过提供结构化和标准化的输出，不同的智能体可以清晰地对其任务和责任达成一致的理解。知识共享机制和自定义知识管理在MetaGPT中，每个智能体通过从共享环境日志中检索相关历史信息，来主动策划个性化知识。智能体不是被动地依赖对话，而是利用基于角色的兴趣来提取相关信息。如前所述，MetaGPT中的每个智能体都维护了一个内存缓存，并对其角色相关的订阅消息进行索引，实现个性化的知识策划。具体来说，消息的集中复制创建了一个统一的数据源。智能体可以注册订阅，自动从该数据源接收与其角色相关的消息。在内部，智能体通过内容、来源和属性将内存缓存索引，以便在相关上下文中实现快速检索。

消息共享：当一个智能体生成一条消息时，它会被复制到共享的环境日志中，创建一个真实的单一数据源。从而确保所有智能体都可以获取相同的信息。
基于角色的订阅：智能体可以根据其角色对其有意义的消息类型进行注册订阅。其根据与智能体的责任和任务相一致的预定义标准进行的。
消息分发：当有新的消息符合订阅条件时，它会自动分发通知给相关的智能体。这种主动传播信息的方式可以防止智能体错过重要的更新。
内存缓存和索引：智能体会维护一个内部的记忆缓存，其中订阅的消息会被存储并按内容、发送者和接收者建立索引。从而保障高效的信息存储和检索。
上下文检索：环境会维护一个支持缓存和索引的共享内存池。与此同时，智能体可以根据需要查询其内部内存，以获取与其当前任务相关的上下文细节。这有助于改进其理解并做出更好的决策。
更新同步：对消息进行的任何更新或更改都会在所有链接的智能体内存中同步，以保持信息的一致视图。这确保所有智能体都可以访问最新的数据。通过在智能体角色周围对信息流进行组织，确保多智能体之间的协作。通过结合中心化的知识共享与基于角色的个性化内存缓存相结合，实现定制化的知识管理。这减少了无关数据的存在，并提供了共同的上下文，从而在团队协作和个人效率之间达成平衡。

MetaGPT优劣势

优势

多Agent组成协作处理更复杂的任务。
通过将SOP融入到多智能体协作中，解决了现有方法在处理复杂任务时存在的幻觉问题。
通过结构化协调和模块化输出，能够有效地解决复杂的多智能体协作问题。
智能体可以主动从环境中获取相关知识，而不是简单地通过对话获取信息。这种设计更符合人类组织的运作模式。

劣势

偶尔会引用不存在的资源文件，如图像和音频。
在执行复杂任务时，它容易调用未定义或未导入的类或变量。
角色和流程还比较固定，无法实现动态扩展，如扩展UI设计角色。

19、Agno

Agno 是一个用于构建多模态智能体的轻量级库。

构建与文本、图像、音频和视频协同工作的闪电般快速的代理。
根据需要添加内存、知识和工具。
在任何地方运行，Agno 是开源的。

关键特性

闪电般快速：代理创建比 LangGraph 快 10000 倍（见性能）。
模型无关：使用任何模型，任何提供商，无锁定。
多模态：原生支持文本、图像、音频和视频。
多agent：组建专业代理团队。
内存管理：将agent会话和状态存储在数据库中。
知识库：使用向量数据库进行 RAG 或动态少样本学习。
结构化输出：使代理以结构化数据响应。
监控：在 agno.com 实时跟踪代理会话和性能。

应用场景

Agno在智能客服、图像与视频分析、智能投资顾问、智能教育辅助等领域均有广泛应用，为各行各业带来智能化升级。

智能客服与聊天机器人：Agno可以帮助企业快速构建智能客服系统，利用其多模态支持和快速响应的特点，智能客服可以同时处理文本、语音等多种形式的客户咨询，快速准确地回答客户问题，提高客户满意度和服务效率。
智能图像与视频分析：Agno的多模态支持使得智能体能够对图像和视频进行深入分析，识别物体、行为、场景等信息。例如，在智能安防监控中，智能体可以实时分析监控视频，检测异常行为，并及时发出警报。
智能投资顾问：Agno的多智能体协作功能可以创建多个智能体，分别负责市场数据收集、数据分析、投资策略制定等任务。这些智能体协同工作，为投资者提供全面、准确的投资建议，帮助投资者做出更明智的投资决策。
智能教育辅助：Agno可以构建智能辅导系统，根据学生的学习情况和问题，提供个性化的学习建议和解答。例如，在在线学习平台中，智能辅导系统可以实时回答学生的问题，提供知识点讲解、作业批改等服务，实现24小时不间断的学习支持。

20、LlamaIndex

LlamaIndex是一个将大语言模型（Large Language Models, LLMs）和外部数据连接在一起的工具，主要用于优化LLMs在处理私有或特定领域数据时的性能和准确性。LlamaIndex通过构建索引和增强检索能力，使得LLMs在处理大规模数据集时更加高效和智能。提供了数据连接器、索引结构和为 RAG 设计的查询接口。专门用于构建RAG系统的框架。检索增强生成 (RAG) 是使用 LlamaIndex 构建数据支持的 LLM 应用程序的核心技术。 LlamaIndex 中结构化数据提取的工作方式的核心是Pydantic类：在 Pydantic 中定义一个数据结构，然后 LlamaIndex 与 Pydantic 一起将 LLM 的输出强制转换为该结构。

为何选择 LlamaIndex 进行上下文增强？

首先，LlamaIndex 并不限制您如何使用 LLM。您仍然可以将其用作自动补全、聊天机器人、半自主代理等（参见左侧的使用案例）。它只是让 LLM 更贴近您的需求。 LlamaIndex 提供以下工具，帮助您快速构建生产级 RAG 系统：

数据连接器：从原生来源和格式摄取现有数据，如 APIs、PDF、SQL 等；
数据索引：将您的数据结构化为易于 LLM 消耗且性能优异的中间表示形式；
引擎：提供对您数据的自然语言访问，例如：
- 查询引擎：强大的检索界面，用于知识增强输出；
- 聊天引擎：对话式接口，用于与数据进行多消息、“来回”交互；
- 数据代理：由工具（从简单辅助函数到 API 集成等）增强的 LLM 动力知识工作者；
应用集成：将 LlamaIndex 与您的生态系统其余部分（如 LangChain、Flask、Docker、ChatGPT 或任何其他工具）紧密关联。

LlamaIndex 使用场景

增强大模型的外部数据访问

场景示例：
- 将企业内部文档、数据库或API数据索引化，使大模型（如GPT）能动态检索相关信息，生成更准确的回答。
- 学术研究时，快速从海量论文库中提取相关段落辅助分析。

智能问答系统（RAG, Retrieval-Augmented Generation）

场景示例：
- 客服机器人结合产品文档库，实时检索用户问题的上下文生成答案。
- 法律顾问工具检索案例库，生成合规建议。

多源数据聚合与结构化查询

场景示例：
- 整合公司财报、新闻和社交媒体数据，生成市场趋势分析报告。
- 从多个数据库（MySQL、MongoDB）中提取数据，通过自然语言查询统一接口。

长期记忆管理

场景示例：
- 为对话系统（如ChatGPT）提供持久化记忆存储，支持历史会话的上下文检索。

LlamaIndex 的限制

数据规模与性能瓶颈

处理超大规模数据（如PB级）时，索引构建和检索延迟显著增加，需依赖分布式架构优化。

依赖外部大模型

生成能力高度依赖底层LLM（如GPT-4），若LLM存在幻觉或错误，结果可能不可靠。

实时性限制

索引更新通常为批量处理，难以支持秒级实时数据同步（如高频交易数据）。

复杂查询处理能力有限

对多条件嵌套查询或逻辑推理场景（如“对比A和B的优缺点”）支持较弱，需结合额外逻辑层。

非结构化数据处理的挑战

对图像、视频等多模态数据的原生支持有限，需额外预处理（如OCR提取文本）。

LlamaIndex 的优缺点

优点

缺点

选型建议

✅ 选择 LlamaIndex 当且仅当：

需要将结构化/非结构化数据与大模型结合，构建检索增强型应用。
业务场景依赖动态上下文检索（如知识库问答、个性化推荐）。
技术团队具备一定的数据工程基础，能处理索引优化与维护。

❌ 避免使用 LlamaIndex：

需求仅为简单文本生成，无需外部数据检索。
数据规模极小（如单文档处理），直接使用LLM原生能力更高效。
对实时性要求极高（如金融高频交易监控）。

21、langchain

LangChain是一个由大型语言模型 (LLM) 驱动的应用程序开发框架。 LangChain 简化了 LLM 应用程序生命周期的每个阶段：

开发：使用 LangChain 的开源组件和第三方集成构建您的应用程序。使用LangGraph构建具有一流流媒体和人机交互支持的状态代理。
生产化：使用LangSmith检查、监控和评估您的应用程序，以便您可以不断优化和自信地部署。
部署：使用LangGraph 平台将您的 LangGraph 应用程序转变为可用于生产的 API 和助手。

LangChain 为大型语言模型和相关技术（例如嵌入模型和向量存储）实现了标准接口，并与数百家提供商集成。

为什么选择LangChain？

LangChain 旨在解决几个主要需求：

标准化组件接口：随着 AI 应用的模型和相关组件数量不断增加，开发者需要学习和使用各种不同的 API。这种多样性使得开发者在构建应用程序时难以在提供商之间切换或组合组件。LangChain 为关键组件提供了标准接口，让开发者在提供商之间切换变得轻松。
编排：随着应用程序变得越来越复杂，结合了多个组件和模型，越来越需要有效地将这些元素连接到可以完成各种任务的控制流中。编排对于构建这样的应用程序至关重要。
可观察性和评估：随着应用程序变得越来越复杂，越来越难以理解其中发生的事情。此外，选择悖论可能会限制开发速度。例如，开发人员经常想知道如何设计他们的提示，或者哪个 LLM 可以最好地平衡准确性、延迟和成本。可观察性和评估可以帮助开发人员监控他们的应用程序并自信地快速回答这些类型的问题。

22、Flock

Flock 是一个基于工作流 workflow 的低代码平台，用于快速构建聊天机器人、RAG 应用和协调多代理团队。它基于 LangChain 和 LangGraph 构建，提供灵活的低代码编排协作代理解决方案，支持聊天机器人、RAG 应用、代理和多代理系统，并具备离线运行能力。

核心功能

智能体编排引擎：支持层级化/顺序化智能体协作，内置CREAWAI多智能体框架，支持条件分支节点实现复杂业务逻辑流。
图像工具调用：支持对不同类型的图像的处理和相关工具的调用。
人机交互机制：包括人类审核节点，对LLM输出或工具调用进行人工干预，以及多模态输入支持，已集成图像处理和视频/音频模态开发。
开发效率工具：子图节点模块化封装复用工作流，Python代码执行节点支持动态数据处理与自定义逻辑扩展。
企业级特性：多租户隔离与RBAC权限控制，基于Prometheus的实时监控，集成LangSmith可观测性工具链。
检索增强生成：使代理能够利用内部知识库进行推理。在线知识库构建。

节点类型和功能

Flock 的工作流系统由各种类型的节点组成，每种节点都有特定的用途：

输入节点：处理初始输入并将其转换为工作流可处理的格式。
LLM 节点：利用大型语言模型进行文本生成和处理。
检索节点：从知识库中获取相关信息。
工具节点：执行特定的任务或操作，扩展工作流功能。
检索工具节点：结合检索能力和工具功能。
意图识别节点：根据预设类别自动识别用户输入意图并路由到不同的处理流程。
回答节点：生成最终答案或输出，整合前序节点的结果。
子图节点：封装完整的子工作流，允许模块化设计。
开始和结束节点：标记工作流的开始和结束。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】