如何用知识图谱+医疗问答对合成推理数据？兼看Deep Research的两个复刻实现拆解-CSDN博客

本文链接：https://blog.csdn.net/bagell/article/details/147784089

我们今天来看两个问题。

一个是关于知识图谱的进展【许久没有这类进展了】，来看看如何基于知识图谱+医疗问答对合成推理数据，之前我们将Knowlm的时候，会想着使用这种方式来远程监督构造信息抽取数据集，而到了R1这阵推理风之后，又可以作为推理路径生成做个贴边，此外还可以再贴上可解释性，正好可以讲个故事。但具体怎么做，我们来看看。

另一个继续拆解项目代码，看技术实现流程，之前看了公司深度报告生成《公司深度报告自动生成company-research-agent框架及PP-DOCBEE文档大模型数据合成策略解析》，同样也都是deepresearch的范畴，归根结底还是流程的设计，所以，我们再来看看两个项目的实现。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、基于知识图谱+医疗问答对合成推理数据思路MedReason

基于知识图谱+问答对合成推理数据工作。《MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs》，(https://github.com/UCSC-VLAA/MedReason，https://huggingface.co/collections/UCSC-VLAA/medreason，https://arxiv.org/pdf/2504.00993)，一个很工程性的论文，从学术角度上，是个不错的思路，可看看：

实现思路很简单，步骤如下：

1、从医疗数据集中提取问答对，然后使用LLM提取问答中的实体

数据这块直接收集的开源数据集，如MedQA、MedMCQA、PubmedQA等，实体抽取这一步用llm提示prompt做；

2、将这些实体映射到医疗知识图谱中的相应节点

这一步经过三个步骤，一个是Exact Match精确匹配，一个是相似度匹配Similarity Match，相似度阈值>0.85，然后最终再送LLM去做rerank做最终选择，prompt如下：

这一步也是通过写prompt送llm，找到相关的:

3、识别知识图谱中连接问答实体的所有推理路径，并指导LLM剪枝不相关的路径

里面有个细节，为了避免过度思考，所以就使用shortest paths算法找到所有的path路径，但是路径有很多，所以让llm去做剪枝，写prompt送llm进行推理。

4、最终的推理路径作为结构化数据来源，指导LLM生成医学上基于事实的CoT解释。

但是，难点是如何保证形成的推理数据是正确的，并且与结果有明显的指向性。所以有了第5步，推理数据过滤，方式是基于生成的推理path去获取答案来后验，并且去除答案不对的，如下的prompt:

虽然，这一步骤，成功的将45K数据降低到了32K，但是，这个工作假设性很强，路径导致了答案，大模型用了路径，且人相信这种解释。所以，这类工作切的可解释性的点，思想很粗暴，是个工程性论文。

整个流程，具象化就是如下：

从技术上来讲，整个路线的核心是剪枝不相关的路径，因为问题和答案都已知了，也就是说，问题中的实体跟答案中的实体都是已知的，只需要找到所有的可能路径，然后去除不相关的路径就行了，这个很工程化，亮点在于处理流程，还是比较依赖llm。

这个工作后续的方向，可以往下走：做归因分析，而不是现在的这个纯工程化流水线，一个readme就能说清楚的工作。还有个一个更大的使用障碍：在真实场景中，并不能有对应的kg，这回使得这种方案的泛化性很差。

此外，图谱中的path，本身是有跳跃性的，这个很容易让幻觉钻空子。所以，这个其实是高度假设性的，很难真实奏效；工作的漏洞很多的；有个causalrag，里面提到个思路很好，就是kg中的是相关，而不是causal。

二、再看Deep Research的两个复刻实现流程

同样还是Deep Research的复刻，再来看看对应的实现，有两个工作，一个是u14app-deep-research，一个是deepresearch-local，重点看实现流程。

2、Local Deep Research

Deepresearch的另一个复刻版本，地址在：https://github.com/LearningCircuit/local-deep-research，特点是有两种研究模式。

一种是快速摘要，快速得出结果（30秒-3分钟），包含关键信息和引用，适合快速探索和回答简单问题，支持并行使用多个搜索引擎，在相关情况下可以包含表格和结构化信息；

一种是详细报告模式，进行包含结构化章节、目录和深入探索的全面分析，创建结构合理的专业级报告，为每个章节单独进行研究，以确保全面覆盖，在各章节之间整合信息，实现连贯分析，包含引用和参考跟踪。

我们来看下实现，对应的报告生成逻辑在：https://gitcode.com/gh_mirrors/lo/local-deep-research/blob/main/src/local_deep_research/report_generator.py，流程分为三个步骤：

确定报告结构：调用 _determine_report_structure 方法，分析初始发现的内容，确定报告的结构（包括章节和子章节）。->研究并生成各章节内容：调用 _research_and_generate_sections 方法，针对每个章节和子章节进行研究并生成内容。->格式化最终报告：调用 _format_final_report 方法，将章节内容和目录结构组合成最终的报告格式。

更详细的流程如下，可以看看数据流的具体走向：

其中有个点比较重要，就是调整迭代深度，例如1次迭代快速回答事实性问题（约30秒）；2-3次迭代需要深入探索的复杂主题（2-3分钟）；3-5次迭代进行全面研究并进行后续调查（5分钟以上）。

另外就是集成的数据集，包括维基百科、arXiv、PubMed、SemanticScholar等学术资源，以及SearXNG、BraveSearch、SerpAPI（用于谷歌结果）等网络自资源。

这里面提到的数据集访问方式、不同数据集的比较，对于我们做AI搜索，以及学术领域的，都可以直接借鉴，挺好的资源。

2、u14app-deep-research

这个项目的主要差异性性是快速，地址在：https://github.com/u14app/deep-research，官方的图太大，显示不清，如下：

实现流程思路并不复杂，流程从“研究主题”开始，逐步展开为输入主题、思考、提出想法等步骤，即：输入研究主题->使用本地研究资源（可选）->开始思考（或重新思考）

然后是提出的想法，系统根据用户的研究主题提出问题以确认研究方向->回答系统问题（可选）->撰写研究计划（或重新撰写研究计划）->系统输出研究计划->开始深入研究（或重新研究）->系统生成搜索引擎结果页面（SERP）查询；

在“信息收集”阶段，分为**“初步研究”和“深入研究”**，并详细描述了数据收集和要点提取的过程。

初步研究步骤为：开始第一轮数据收集->根据SERP查询检索本地研究资源->从本地研究资源中提取与SERP查询相关的学习要点->根据SERP查询从互联网收集信息->从互联网上收集的材料中提取与SERP查询相关的学习要点->完成第一轮信息收集；

深入研究（此过程可以重复），步骤为：提出研究建议（可选）->开始新一轮信息收集（过程与初步研究相同）

最终，流程可以进入“写作请求”，生成报告并选择是否重新生成报告。实现步骤为：写作请求（可选）->将所有研究材料总结为一份全面的Markdown报告->包含所有来源和参考文献->以清晰易读的格式组织信息->重新生成研究报告（可选）

根据上述流程，可以整理成mermaid流程图，如下：

从上面这个流程图来看，因为有了许多的可选项，所以可以选择快速版本跟深度版本。

最近喜欢上了mermaid，其实还是蛮清晰的，一目了然，比较适合梳理流程。

总结

本文主要介绍了基于知识图谱+医疗问答对合成推理数据思路MedReason，可以看到其作为一个数据工程中做的流程设计。另外，还是流程设计上，我们看了两个Deep Research的两个复刻实现流程，仔细体会，都是很有收获的。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

如何用知识图谱+医疗问答对合成推理数据？兼看Deep Research的两个复刻实现拆解

一、基于知识图谱+医疗问答对合成推理数据思路MedReason

二、再看Deep Research的两个复刻实现流程

总结

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

CSDN粉丝独家福利

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

CSDN粉丝独家福利

如何学习AI大模型？