很多人想要结合RAG技术和大模型,打造自己的垂类AI助手,但是不知道怎么做?有一个基于MinerU工具的二开项目,是一个很典型的RAG技术在垂直场景应用的案例,大家可以参考它是怎么做的,动手也构建一个自己的AI助手
项目基于MinerU,二次构建了深度优化的文档解析引擎 Mineru-xyb,实现医疗文档的多模态解析与知识萃取,形成标准化知识库;然后依托多种大模型,结合混合RAG框架(集成检索增强、医疗专用插件及API网关)实现知识库的高效检索、智能推理,最终构建跨平台服务矩阵,支持等多样化终端接入,为胰腺癌疾病诊疗提供便捷的知识服务。
文档解析引擎 Mineru-xyb,打破RAG中医疗相关文档的"次元壁"
在知识库文件准备环节,作者总结了3个主要痛点:
⚠️ 传统解析方法让30%关键数据流失
⚠️ PDF文档的图片/公式成"信息黑洞"
⚠️ 单文档转化效率太低
在对比多个工具后,他们选择 MinerU 文档提取工具用于知识库文件准备,并在文档解析引擎构建中,提出3个关键要点:
1. 提升文档处理效率:解决传统 RAG 工具在处理 PDF 等格式文档时的信息损耗问题,努力保持保留文档中的图片、公式等关键信息的完整性;
2. 降低部署成本:适配云端免费服务资源(腾讯Cloudstudio/魔搭社区等),一键部署,低成本转化;
3. 提供企业级存储方案:结合 Sealos 和 Minio,支持 S3 配置,确保图片链接的长期可用;
最后,他们打造了这样一个文档解析引擎:
1. 智能解析层
• 支持多种知识库文档格式,高质量转换为markdown格式
• 完整保留表格/分子式/关键示例图片/指南图片
2. 云端架构
• 基于Sealos+Minio的弹性架构
• 高质量连续批量处理混排文档
3. 评估体系
• 首推RAGAS医疗专项测评
• AI自评估准确率校准系统
目前他们已将自己优化后的文档解析引擎 Mineru-xyb做了开源,需要的朋友可以自取,GitHub地址:https://github.com/PancrePal-xiaoyibao/MinerU-xyb
更多MinerU二开成果,点击链接提交:https://aicarrier.feishu.cn/share/base/form/shrcneaKr8tecz3agwNa90Xqh0g