我们今天来看两个问题。
一个是关于知识图谱的进展【许久没有这类进展了】,来看看如何基于知识图谱+医疗问答对合成推理数据,之前我们将Knowlm的时候,会想着使用这种方式来远程监督构造信息抽取数据集,而到了R1这阵推理风之后,又可以作为推理路径生成做个贴边,此外还可以再贴上可解释性,正好可以讲个故事。但具体怎么做,我们来看看。
另一个继续拆解项目代码,看技术实现流程,之前看了公司深度报告生成《公司深度报告自动生成company-research-agent框架及PP-DOCBEE文档大模型数据合成策略解析》,同样也都是deepresearch的范畴,归根结底还是流程的设计,所以,我们再来看看两个项目的实现。
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
一、基于知识图谱+医疗问答对合成推理数据思路MedReason
基于知识图谱+问答对合成推理数据工作。《MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs》,(https://github.com/UCSC-VLAA/MedReason,https://huggingface.co/collections/UCSC-VLAA/medreason,https://arxiv.org/pdf/2504.00993),一个很工程性的论文,从学术角度上,是个不错的思路,可看看:
实现思路很简单,步骤如下:
1、从医疗数据集中提取问答对,然后使用LLM提取问答中的实体
数据这块直接收集的开源数据集,如MedQA、MedMCQA、PubmedQA等,实体抽取这一步用llm提示prompt做;
2、将这些实体映射到医疗知识图谱中的相应节点
这一步经过三个步骤,一个是Exact Match精确匹配,一个是相似度匹配Similarity Match,相似度阈值>0.85,然后最终再送LLM去做rerank做最终选择,prompt如下:
这一步也是通过写prompt送llm,找到相关的:
3、识别知识图谱中连接问答实体的所有推理路径,并指导LLM剪枝不相关的路径
里面有个细节,为了避免过度思考,所以就使用shortest paths算法找到所有的path路径,但是路径有很多,所以让llm去做剪枝,写prompt送llm进行推理。
4、最终的推理路径作为结构化数据来源,指导LLM生成医学上基于事实的CoT解释。
但是,难点是如何保证形成的推理数据是正确的,并且与结果有明显的指向性。所以有了第5步,推理数据过滤,方式是基于生成的推理path去获取答案来后验,并且去除答案不对的,如下的prompt:
虽然,这一步骤,成功的将45K数据降低到了32K,但是,这个工作假设性很强,路径导致了答案,大模型用了路径,且人相信这种解释。所以,这类工作切的可解释性的点,思想很粗暴,是个工程性论文。
整个流程,具象化就是如下:
从技术上来讲,整个路线的核心是剪枝不相关的路径,因为问题和答案都已知了,也就是说,问题中的实体跟答案中的实体都是已知的,只需要找到所有的可能路径,然后去除不相关的路径就行了,这个很工程化,亮点在于处理流程,还是比较依赖llm。
这个工作后续的方向,可以往下走:做归因分析,而不是现在的这个纯工程化流水线,一个readme就能说清楚的工作。还有个一个更大的使用障碍:在真实场景中,并不能有对应的kg,这回使得这种方案的泛化性很差。
此外,图谱中的path,本身是有跳跃性的,这个很容易让幻觉钻空子。所以,这个其实是高度假设性的,很难真实奏效;工作的漏洞很多的;有个causalrag,里面提到个思路很好,就是kg中的是相关,而不是causal。
二、再看Deep Research的两个复刻实现流程
同样还是Deep Research的复刻,再来看看对应的实现,有两个工作,一个是u14app-deep-research,一个是deepresearch-local,重点看实现流程。
2、Local Deep Research
Deepresearch的另一个复刻版本,地址在:https://github.com/LearningCircuit/local-deep-research,特点是有两种研究模式。
一种是快速摘要,快速得出结果(30秒-3分钟),包含关键信息和引用,适合快速探索和回答简单问题,支持并行使用多个搜索引擎,在相关情况下可以包含表格和结构化信息;
一种是详细报告模式,进行包含结构化章节、目录和深入探索的全面分析,创建结构合理的专业级报告,为每个章节单独进行研究,以确保全面覆盖,在各章节之间整合信息,实现连贯分析,包含引用和参考跟踪。
我们来看下实现,对应的报告生成逻辑在:https://gitcode.com/gh_mirrors/lo/local-deep-research/blob/main/src/local_deep_research/report_generator.py,流程分为三个步骤:
确定报告结构:调用 _determine_report_structure 方法,分析初始发现的内容,确定报告的结构(包括章节和子章节)。->研究并生成各章节内容:调用 _research_and_generate_sections 方法,针对每个章节和子章节进行研究并生成内容。->格式化最终报告:调用 _format_final_report 方法,将章节内容和目录结构组合成最终的报告格式。
更详细的流程如下,可以看看数据流的具体走向:
其中有个点比较重要,就是调整迭代深度,例如1次迭代快速回答事实性问题(约30秒);2-3次迭代需要深入探索的复杂主题(2-3分钟);3-5次迭代进行全面研究并进行后续调查(5分钟以上)。
另外就是集成的数据集,包括维基百科、arXiv、PubMed、SemanticScholar等学术资源,以及SearXNG、BraveSearch、SerpAPI(用于谷歌结果)等网络自资源。
这里面提到的数据集访问方式、不同数据集的比较,对于我们做AI搜索,以及学术领域的,都可以直接借鉴,挺好的资源。
2、u14app-deep-research
这个项目的主要差异性性是快速,地址在:https://github.com/u14app/deep-research,官方的图太大,显示不清,如下:
实现流程思路并不复杂,流程从“研究主题”开始,逐步展开为输入主题、思考、提出想法等步骤,即:输入研究主题->使用本地研究资源(可选)->开始思考(或重新思考)
然后是提出的想法,系统根据用户的研究主题提出问题以确认研究方向->回答系统问题(可选)->撰写研究计划(或重新撰写研究计划)->系统输出研究计划->开始深入研究(或重新研究)->系统生成搜索引擎结果页面(SERP)查询;
在“信息收集”阶段,分为**“初步研究”和“深入研究”**,并详细描述了数据收集和要点提取的过程。
初步研究步骤为:开始第一轮数据收集->根据SERP查询检索本地研究资源->从本地研究资源中提取与SERP查询相关的学习要点->根据SERP查询从互联网收集信息->从互联网上收集的材料中提取与SERP查询相关的学习要点->完成第一轮信息收集;
深入研究(此过程可以重复),步骤为:提出研究建议(可选)->开始新一轮信息收集(过程与初步研究相同)
最终,流程可以进入“写作请求”,生成报告并选择是否重新生成报告。实现步骤为:写作请求(可选)->将所有研究材料总结为一份全面的Markdown报告->包含所有来源和参考文献->以清晰易读的格式组织信息->重新生成研究报告(可选)
根据上述流程,可以整理成mermaid流程图,如下:
从上面这个流程图来看,因为有了许多的可选项,所以可以选择快速版本跟深度版本。
最近喜欢上了mermaid,其实还是蛮清晰的,一目了然,比较适合梳理流程。
总结
本文主要介绍了基于知识图谱+医疗问答对合成推理数据思路MedReason,可以看到其作为一个数据工程中做的流程设计。另外,还是流程设计上,我们看了两个Deep Research的两个复刻实现流程,仔细体会,都是很有收获的。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈