记一个大模型医学rag知识库应用案例实践

很多人想要结合RAG技术和大模型,打造自己的垂类AI助手,但是不知道怎么做?有一个基于MinerU工具的二开项目,是一个很典型的RAG技术在垂直场景应用的案例,大家可以参考它是怎么做的,动手也构建一个自己的AI助手

项目基于MinerU,二次构建了深度优化的文档解析引擎 Mineru-xyb,实现医疗文档的多模态解析与知识萃取,形成标准化知识库;然后依托多种大模型,结合混合RAG框架(集成检索增强、医疗专用插件及API网关)实现知识库的高效检索、智能推理,最终构建跨平台服务矩阵,支持等多样化终端接入,为胰腺癌疾病诊疗提供便捷的知识服务。

文档解析引擎 Mineru-xyb,打破RAG中医疗相关文档的"次元壁"

在知识库文件准备环节,作者总结了3个主要痛点:

⚠️ 传统解析方法让30%关键数据流失

⚠️ PDF文档的图片/公式成"信息黑洞"  

⚠️ 单文档转化效率太低

在对比多个工具后,他们选择 MinerU 文档提取工具用于知识库文件准备,并在文档解析引擎构建中,提出3个关键要点:

1. 提升文档处理效率:解决传统 RAG 工具在处理 PDF 等格式文档时的信息损耗问题,努力保持保留文档中的图片、公式等关键信息的完整性;

2. 降低部署成本:适配云端免费服务资源(腾讯Cloudstudio/魔搭社区等),一键部署,低成本转化;

3. 提供企业级存储方案:结合 Sealos 和 Minio,支持 S3 配置,确保图片链接的长期可用;

最后,他们打造了这样一个文档解析引擎:

1. 智能解析层

• 支持多种知识库文档格式,高质量转换为markdown格式

• 完整保留表格/分子式/关键示例图片/指南图片

2. 云端架构

• 基于Sealos+Minio的弹性架构

• 高质量连续批量处理混排文档

3. 评估体系

• 首推RAGAS医疗专项测评

• AI自评估准确率校准系统

目前他们已将自己优化后的文档解析引擎 Mineru-xyb做了开源,需要的朋友可以自取,GitHub地址:https://github.com/PancrePal-xiaoyibao/MinerU-xyb

更多MinerU二开成果,点击链接提交:https://aicarrier.feishu.cn/share/base/form/shrcneaKr8tecz3agwNa90Xqh0g

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值