如何用知识图谱+医疗问答对合成推理数据？兼看Deep Research的两个复刻实现拆解-CSDN博客

本文链接：https://blog.csdn.net/Gaga246/article/details/147789578

一、基于知识图谱+医疗问答对合成推理数据思路MedReason

基于知识图谱+问答对合成推理数据工作。《MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs》，(https://github.com/UCSC-VLAA/MedReason，https://huggingface.co/collections/UCSC-VLAA/medreason，https://arxiv.org/pdf/2504.00993)，一个很工程性的论文，从学术角度上，是个不错的思路，可看看：

实现思路很简单，步骤如下：

1、从医疗数据集中提取问答对，然后使用LLM提取问答中的实体

数据这块直接收集的开源数据集，如MedQA、MedMCQA、PubmedQA等，实体抽取这一步用llm提示prompt做；

2、将这些实体映射到医疗知识图谱中的相应节点

这一步经过三个步骤，一个是Exact Match精确匹配，一个是相似度匹配Similarity Match，相似度阈值>0.85，然后最终再送LLM去做rerank做最终选择，prompt如下：

这一步也是通过写prompt送llm，找到相关的:

3、识别知识图谱中连接问答实体的所有推理路径，并指导LLM剪枝不相关的路径

里面有个细节，为了避免过度思考，所以就使用shortest paths算法找到所有的path路径，但是路径有很多，所以让llm去做剪枝，写prompt送llm进行推理。

4、最终的推理路径作为结构化数据来源，指导LLM生成医学上基于事实的CoT解释。

但是，难点是如何保证形成的推理数据是正确的，并且与结果有明显的指向性。所以有了第5步，推理数据过滤，方式是基于生成的推理path去获取答案来后验，并且去除答案不对的，如下的prompt:

虽然，这一步骤，成功的将45K数据降低到了32K，但是，这个工作假设性很强，路径导致了答案，大模型用了路径，且人相信这种解释。所以，这类工作切的可解释性的点，思想很粗暴，是个工程性论文。

整个流程，具象化就是如下：

从技术上来讲，整个路线的核心是剪枝不相关的路径，因为问题和答案都已知了，也就是说，问题中的实体跟答案中的实体都是已知的，只需要找到所有的可能路径，然后去除不相关的路径就行了，这个很工程化，亮点在于处理流程，还是比较依赖llm。

这个工作后续的方向，可以往下走：做归因分析，而不是现在的这个纯工程化流水线，一个readme就能说清楚的工作。还有个一个更大的使用障碍：在真实场景中，并不能有对应的kg，这回使得这种方案的泛化性很差。

此外，图谱中的path，本身是有跳跃性的，这个很容易让幻觉钻空子。所以，这个其实是高度假设性的，很难真实奏效；工作的漏洞很多的；有个causalrag，里面提到个思路很好，就是kg中的是相关，而不是causal。

二、再看Deep Research的两个复刻实现流程

同样还是Deep Research的复刻，再来看看对应的实现，有两个工作，一个是u14app-deep-research，一个是deepresearch-local，重点看实现流程。

2、Local Deep Research

Deepresearch的另一个复刻版本，地址在：https://github.com/LearningCircuit/local-deep-research，特点是有两种研究模式。

一种是快速摘要，快速得出结果（30秒-3分钟），包含关键信息和引用，适合快速探索和回答简单问题，支持并行使用多个搜索引擎，在相关情况下可以包含表格和结构化信息；

一种是详细报告模式，进行包含结构化章节、目录和深入探索的全面分析，创建结构合理的专业级报告，为每个章节单独进行研究，以确保全面覆盖，在各章节之间整合信息，实现连贯分析，包含引用和参考跟踪。

我们来看下实现，对应的报告生成逻辑在：https://gitcode.com/gh_mirrors/lo/local-deep-research/blob/main/src/local_deep_research/report_generator.py，流程分为三个步骤：

确定报告结构：调用 _determine_report_structure 方法，分析初始发现的内容，确定报告的结构（包括章节和子章节）。->研究并生成各章节内容：调用 _research_and_generate_sections 方法，针对每个章节和子章节进行研究并生成内容。->格式化最终报告：调用 _format_final_report 方法，将章节内容和目录结构组合成最终的报告格式。

更详细的流程如下，可以看看数据流的具体走向：