啊我有兔子牙-CSDN博客

原创【2025.2 arxiv】MedRAG：利用知识图谱引发的推理增强检索增强生成，助力医疗保健副驾驶

MedRAG：基于知识图谱增强的医疗诊断RAG模型摘要：本文提出MedRAG模型，通过构建四层分级诊断知识图谱（大类-亚类-具体疾病-疾病特征）来增强医疗诊断的精准性。该模型创新性地将知识图谱引导推理与电子健康记录检索相结合，显著提升了相似症状疾病的鉴别能力（准确率提升12.3%）。实验在DDXPlus和慢性疼痛诊断数据集上验证了其优越性，尤其在主动追问机制支持下，模型能有效补全缺失症状信息。研究同时发现，知识图谱的细粒度信息可能对小参数模型（如GPT-3.5）的大类诊断产生干扰，这为未来优化指明了方向。

2026-01-19 17:14:19 675

原创【2024ACL】Mind Map ：知识图谱激发大型语言模型中的思维图谱

本文提出MindMap框架，通过知识图谱(KG)增强大型语言模型(LLM)的推理能力。该方法创新性地将KG拆解为路径型和邻居型证据子图，保留结构化信息，并引导LLM进行知识整合与推理。实验表明，MindMap在医疗问答任务中显著降低幻觉率，提升答案准确性。核心贡献包括：(1)设计无需微调的提示流程，实现LLM与KG的协同推理；(2)开发可解释的思维导图输出，揭示推理路径；(3)提出新的幻觉评估指标。该方法为高风险领域提供了可靠、透明的AI推理方案，验证了显式知识与隐式知识融合的可行性。未来工作将优化KG动态

2026-01-19 14:39:38 700

原创【2025.8 npj】图检索增强的大型语言模型用于面部表型相关的罕见遗传疾病

这篇论文提出了一种基于知识图谱的检索增强生成（GraphRAG）方法，用于提升大语言模型（LLMs）在面部表型相关罕见遗传病诊断中的表现。研究构建了首个面部表型知识图谱（FPKG），包含6143个节点和19282条边，整合了面部表型、基因、疾病等实体间的关联关系。论文创新性地开发了两种GraphRAG方案：CypherRAG通过生成结构化查询实现精准检索，VectorRAG则结合实体识别和图嵌入技术进行模糊检索。实验表明，相比传统LLMs，GraphRAG方法在诊断准确率（提升11.10%-33.10%）、

2026-01-19 13:45:54 729

原创【2026】FAISS小白入门到应用，手把手完成本地Windows安装部署及学习

部分内容参考文档：https://blog.csdn.net/sinat_28461591/article/details/147031798。

2026-01-11 12:42:24 1051

原创 [ACL 2025.11]How Reliable is Multilingual LLM-as-a-Judge?

这篇文档核心是研究 “多语言大模型当裁判（Multilingual LLM-as-a-Judge）” 靠谱不靠谱 —— 简单说就是让强大的大语言模型（比如 GPT-4o、Llama 这些）去评判不同语言的 AI 生成结果（比如翻译、问答、摘要），看看它能不能像人类一样，不管面对哪种语言，都给出一致、准确的判断。

2026-01-07 11:04:12 392

原创【2025.5.7】Large Language Models in Healthcare and Medical Applications: A Review

本文系统深入地探讨了医疗保健领域的大型语言模型（LLM），阐述了其通过先进的自然语言处理能力变革医疗实践的巨大潜力。现有实例表明，LLM 在临床决策支持、医学教育、诊断和患者护理等领域具有广阔的应用前景，同时也指出了隐私、伦理部署和事实准确性方面的关键挑战，这些挑战亟需解决，才能负责任地将其整合到医疗保健系统中。本文全面阐述了医疗保健 LLM 的背景、发展历程和架构基础，以及其多模态能力。

2025-12-31 16:02:21 749

原创【25.6 】Assessing the Accuracy of Diagnostic Capabilities of Large Language Models

近年来，人工智能应用，尤其是生成式大型语言模型，在医学领域蓬勃发展。本研究对的生成式大型语言模型（LLM）——ChatGPT-4o（OpenAI）、Grok-3（xAI）、Gemini-2.0 Flash（Google）和DeepSeek-V3（DeepSeek）——进行了结构化的比较分析，以评估它们在。方法：我们通过分阶段、逐步增加的复杂度案例来评估模型的医学知识回忆和临床推理能力，并由专家评分员使用分制对模型的回答进行评分。结果：所有模型在，这凸显了情境诊断综合方面仍然存在的局限性。

2025-12-31 15:56:21 615

原创【2025.3 BMC】 A systematic review of large language model (LLM) evaluations in clinical medicine

背景大型语言模型（LLM）是基于Transformer架构的先进人工智能工具，在临床医学领域展现出巨大的潜力，能够增强决策支持、诊断和医学教育。然而，将其整合到临床工作流程中需要进行严格的评估，以确保其可靠性、安全性和伦理合规性。客观的本系统综述考察了应用于临床医学中的LLM的评估参数和方法，重点介绍了它们的能力、局限性和应用趋势。方法我们对PubMed、Scopus、Web of Science、IEEE Xplore和arXiv数据库中的文献进行了全面检索，涵盖了同行评审论文和预印本研究。

2025-12-31 15:37:37 493

原创【2025.6 JMIR】Large Language Models in Medical Diagnostics: Scoping Review With Bibliometric Analysis

该论文是 2025 年 6 月发表于《Journal of Medical Internet Research》的系统性综述，结合文献计量分析，首次全面梳理大语言模型（LLMs）在医学诊断领域的研究现状、核心问题与未来方向，为临床应用和学术研究提供关键参考。

2025-12-31 15:26:07 604

原创【2025.6 Nature】Large language models for disease diagnosis: a scoping review

Scoping Review 是循证研究中的一种文献综述方法，核心目标是，而非像系统综述（Systematic Review）那样聚焦于特定研究问题的 “答案验证”（如某干预措施的有效性）在临床实践中变得越来越有价值。大型语言模型（LLMs）的出现推动了人工智能领域的范式转变，越来越多的证据支持LLMs在诊断任务中的有效性。尽管该领域受到的关注日益增多，但仍缺乏一个全面的视角。许多关键方面尚不明确，例如LLMs已应用于哪些疾病和临床数据、所采用的LLM技术以及使用的评估方法等。

2025-12-31 15:15:21 863

原创【2025.09】百川 - M2：借助大型验证系统提升医疗能力

医疗AI模型Baichuan-M2在临床动态交互中的突破摘要：本文介绍了医疗AI模型Baichuan-M2的创新性研发成果。针对当前医疗大模型在标准化考试表现优异但临床实践欠佳的问题，研究团队构建了动态验证系统，包含高保真患者模拟器和多维度临床评分生成器。该系统能模拟真实诊疗场景，从诊断准确性、问诊逻辑、治疗方案及沟通同理心等多维度评估模型表现。通过三阶段训练(基础医疗知识学习、有监督微调、多阶段强化学习)和改进的GRPO算法，Baichuan-M2在320亿参数规模下实现了优异性能：在OpenAI的He

2025-09-16 20:19:00 932

翻译 [2025.1]JAMA最新综述：大语言模型医疗保健应用的测试与评估：一项系统性综述

2022年1月至2024年2月期间在Pubmed发表的医学评估研究综述

2025-07-20 10:43:56 507

翻译【2025.7.10】对紧急和重症监护环境中的诊断视觉语言模型进行基准测试

本来想看看是不是提出了新的数据集，没想到就是把新的多模态模型在NEJM图像挑战数据上跑了一下。得出了结论。最高也只有40.4%的准确率。后期我的方法也可以在这上面跑，能有很多可以对比的对象

2025-07-20 10:20:41 206

原创【2025最新】使用neo4j实现GraphRAG所需的向量检索

本文探讨了将知识图谱与向量数据库结合以提升检索效果的方法。针对UMLS知识图谱在Neo4j中字符串匹配检索效果不佳的问题，作者提出使用Qwen嵌入模型将实体和关系向量化，并存储在Neo4j中。通过详细的技术选型分析对比Milvus和Neo4j后，选择Neo4j作为向量数据库解决方案。文章详细记录了实现过程：1）配置Qwen嵌入API；2）批量更新Concept节点的名称和类型向量；3）创建向量索引；4）实现相似节点查询功能。最终验证显示，该系统能有效检索语义相似的概念节点，解决了传统字符串匹配的局限性，为R

2025-07-19 18:06:40 2443

原创医学 LLM 评估相关论文笔记

OpenAI推出HealthBench医疗评估系统，旨在全面测试大语言模型在医疗场景中的表现。该基准包含5000个模拟真实医疗对话，由262名国际医生设计48562个评估维度，涵盖临床准确性、沟通质量等关键指标。研究发现，2025年模型表现已接近或超越部分医生水平，但在跨地区医疗适配、信息完整性等方面仍有提升空间。HealthBench采用开放式评估方式，更贴近实际医疗互动，为AI医疗应用提供了更真实的测评标准。该系统已通过OpenAI开源平台发布，将推动医疗AI向更安全、实用的方向发展。

2025-07-07 08:33:02 1140 1

原创【202505】Pre-training Large Memory Language Models with Internal and External Knowledge

摘要：本文提出了一种新型大内存语言模型(LML)，将知识存储分为内部参数和外部数据库两部分。通过预训练阶段屏蔽外部检索的事实值，模型学会主动查询而非记忆具体知识。实验表明，382M参数的LML在事实准确性上可媲美7B参数的LLaMA2模型，同时具备知识可编辑、可验证的优势。该方法实现了语言模型知识管理方式的根本转变，小模型通过外部知识库即可获得优异的事实性能，为提升模型可解释性和知识更新效率提供了新思路。

2025-07-07 07:42:58 875

原创【2025 AAAI】LLM-Powered User Simulator for Recommender System用于推荐系统、LLM 驱动的用户模拟器

用户模拟器能够快速生成大量及时的用户行为数据，为基于强化学习的推荐系统提供测试平台，从而加速其迭代与优化。然而，现有的用户模拟器普遍存在显著局限性，包括用户偏好建模的不透明性以及无法评估模拟准确性。在本文中，我们引入了一种由大语言模型驱动的用户模拟器，以一种明确的方式模拟用户对物品的参与度，从而提高基于强化学习的推荐系统训练的效率和效果。具体而言，我们确定了用户偏好的明确逻辑，利用大语言模型分析物品特征并提炼用户情感，并设计了一个逻辑模型来模仿真实的人类参与行为。通过整合统计模型，我们进一步提高了模拟的

2025-06-09 09:25:59 1355

原创【2025最新】Pycharm里如何运行多个py文件

最近再跑大量的实验，然而每个实验的运行时间都很长，之前为了省事，直接开几个新项目执行就完了，直到实验还剩十几个的时候，意识到这样会浪费很多时间。于是决定彻底从根源上解决问题。3.点击apply 注意你新增加的文件也要配置一下，允许同时运行。2.观察现在运行的python代码，点击允许多个实例。1.在Run标签处点击配置。

2025-05-13 19:41:31 4240

原创【2025最新】gitee+pycharm完成项目的上传与管理

在项目开发中，误删、误改或项目突然无法运行是常见问题，尤其是当没有及时记录工作流程时，重新开始会感到困难。通过写博客记录和规范工作流程，可以有效避免这些问题，同时巩固知识体系。博客不仅是知识存储的工具，还能帮助梳理思路，促进学习和创造。文章详细介绍了如何使用Git和PyCharm进行版本管理，包括安装配置、基本操作、分支管理、解决冲突和版本恢复等。这些工具和方法的掌握，对于提高开发效率和项目管理的规范性至关重要。

2025-05-09 17:12:54 2258

原创【2025最新】如何定制化、高效化使用LIghtRAG进行规范知识抽取

‌LightRAG‌ 定制化抽取及neo4j导入

2025-05-09 11:18:21 2688 3

原创【2025最新】Baichuan-M1-instruct部署教程

baichuanm1-14B-instruct服务器部署教程

2025-05-04 17:47:13 1207

原创服务器部署一个千问2.5-14B、32B并发布为接口

使用qwen3-14B、32B试试看

2025-05-04 16:23:58 853

原创如何自行部署大模型到云服务器，再通过接口调用

之前的实验基座模型用的是deepseek的接口，这种使用大参数，部署在其它服务器上，用接口调用的模型，在开发上是很简单，只需要改接口，不需要部署模型，节省了很多时间。但是，这次真的是吃了很大的亏，deepseek3.25对v3进行更新以后，我所有的实验全部无法复现，效果和之前的差距也非常大。于是这次痛定思痛，好好面对之前自己因为懒惰埋下的雷：拒绝使用本地部署的模型作为基座模型。在这里重新使用本地模型，并学会通过接口调用，这样就能解决了。

2025-04-28 17:10:22 1084 1

原创【2025最新】windows本地部署LightRAG，完成neo4j知识图谱保存

之前在服务器部署neo4j失败，无奈只能在本地部署，导致后期所有使用的知识图谱数据都存在本地，这里为了节省时间，先在本地安装LigthRAG完成整个实验流程，后续在学习各种服务器部署和端口调用。从基础和简单的部分先做起来吧。

2025-04-13 21:36:09 7651 4

原创【2022nature子刊：生物学】用于解释临床蛋白质组学数据的知识图谱

CKG 包括几个独立的功能模块，用于（1）格式化和分析蛋白质组学数据（analytics_core;（2）构建一个图数据库通过整合来自一系列可公开访问的数据库、用户进行的实验、现有本体和科学出版物的可用数据（graphdb_builder）;（3）连接并查询此图数据库（graphdb_connector）;（4）通过在线报告（report_manager）和 Jupyter 笔记本促进数据可视化、存储库和分析（图 1a、b）。此架构可无缝协调和集成数据以及用户提供的分析。

2025-04-02 16:00:03 1357

原创【Nature正刊2023】使用大型语言模型进行自主化学研究

在这项工作中，我们提出了一个基于多 LLM 的智能代理（以下简称 Coscientist），能够自主设计、规划和执行复杂的科学实验。合作科学家可以使用工具浏览 Internet 和相关文档，使用机器人实验应用程序编程接口（API）并利用其他 LLM 执行各种任务。这项工作是独立完成的，并且与自主代理的其他工作并行进行 23-25，ChemCrow26 是化学领域的另一个例子。在本文中，我们展示了 Coscientist 在六项任务中的多功能性和性能：（1）使用公开可用的数据规划已知化合物的化学合成。

2025-04-02 11:41:38 1345

原创大语言模型在患者交互任务中的临床使用评估框架

An evaluation framework for clinical use of large language models in patient interaction tasksAn evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine2025.1收到时间：2023 年 8 月 8 日Shreya Johri 1,10，Jaehwan

2025-03-09 21:38:22 1437

原创 2025.2.10 每日学习记录3：技术报告只差相关工作+补实验

技术报告只差相关工作+补实验

2025-02-11 23:15:21 345

原创 2025.2.9 每日学习记录2：技术报告写了一半+一点点读后感

写完了一半技术报告+一点点阅读体会

2025-02-10 22:08:31 433

原创 2025.2.9 每日学习记录1：微调与技术报告书写

1.完成微调的技术实践，技术学习1 微调系列01-一文吃透！大模型里的微调技术到底是什么？-CSDN博客 2.为了研究技术报告怎么写，阅读了deepseek R1的技术报告原文DeepSeek-R1系列01——技术报告解读：DeepSeek-R1：通过强化学习激励 LLM 中的推理能力-CSDN博客 3.完成技术报告的文字叙述版，确定了摘要和目录 4.完成每日学习记录

2025-02-09 23:08:46 569

原创 DeepSeek-R1系列01——技术报告解读：DeepSeek-R1：通过强化学习激励 LLM 中的推理能力

本文深入解读 DeepSeek - R1 通过强化学习激励大语言模型（LLM）推理能力的技术报告。开篇介绍 DeepSeek - R1 系列在人工智能领域的重要地位，引出对其利用强化学习提升 LLM 推理能力这一核心技术的探讨。详细阐述强化学习在该模型中的应用机制，包括如何设计奖励函数来引导模型在复杂推理任务中找到更优解，以及如何通过与环境交互不断优化推理策略。分析这一技术相较于传统提升 LLM 推理能力方法的优势，如在面对复杂逻辑问题时能更高效地给出准确答案，大幅提升模型的实用性和智能水平。同时，结合具

2025-02-09 21:41:57 3353

原创微调系列01-一文吃透！大模型里的微调技术到底是什么？

在深度学习和机器学习领域，“微调” 是一个频繁出现却又让不少人一知半解的概念。本文将深入浅出地为你剖析什么是微调。首先，介绍微调的基本定义，它是在预训练模型基础上进行的进一步训练，利用少量特定任务数据对模型参数进行针对性调整。接着，详细阐述微调的流程，从选择合适的预训练模型，到准备适配的数据集，再到确定微调的超参数，每个步骤都关乎微调的效果。然后，探索展示微调如何让模型在特定任务中表现大幅提升。

2025-02-09 15:26:53 936

原创 AutoDL微调打怪升级

回到lamafactory的界面，，方法同上述部署模型方法一致，把加载模型路径改为微调模型的输出路径就行了（就是上图的路径）/root/autodl-tmp/myModel，模型名字没变，因为它就是Qwen-7B-Chat的升级版，底层架构啥的都一样。选择模型名称Qwen-7B-Chat，输入地址（之前下载的地方）/root/autodl-tmp/qwen/Qwen-7B-Chat，地址从MobaXterm复制，复制了记得删最后的/gpu是负责运算的，显存是你计算的内存大小，都还够着呢，别担心。

2025-02-09 12:17:33 1352

原创 2024.9 用于疾病诊断的大型语言模型：范围综述

Large Language Models for Disease Diagnosis: A Scoping Reviewhttps://arxiv.org/abs/2409.00097原文抽象。自动疾病诊断在临床实践中变得越来越有价值。大型语言模型（LLM）的出现催化了人工智能的范式转变，越来越多的证据支持 LLM 在诊断任务中的有效性。尽管该领域受到越来越多的关注，但仍然缺乏整体观点。许多关键方面仍不清楚，例如应用 LLM 的疾病和临床数据、采用的 LLM 技术以及使用的评估方法。在本文中，我们对基

2024-12-21 22:06:46 1194

原创 2024.8 设计可解释的 ML 系统以增强对医疗保健的信任：对提出的负责任的临床医生-AI 协作框架的系统评价

https://www.sciencedirect.com/science/article/pii/S1566253524001908?via%3Dihub论文的详细信息如下：问题：哪些医疗应用使用了解释性人工智能工具？医疗应用中的可解释性当前采用了哪些方法？如何为特定终端用户实施和评估强大的可解释人工智能？在医疗领域使用可解释人工智能的潜在未来趋势和关键挑战是什么？挑战：人工智能算法复杂，难以提供易于理解的决策解释，导致终端用户不信任，尤其是在医疗保健领域。深度学习模型如

2024-12-21 17:32:46 2166

原创 2024.12 迈向可解释和可解释的多模态大型语言模型：一项综合调查

人工智能（AI）的快速发展彻底改变了许多领域，大型语言模型（LLM）和计算机视觉（CV）系统分别推动了自然语言理解和视觉处理的进步。这些技术的融合催化了多模态 AI 的兴起，实现了更丰富的跨模态理解，涵盖文本、视觉、音频和视频模态。尤其是。

2024-12-21 16:26:53 2362

原创 2024.7 XAI 遇见 LLM：可解释 AI 与大型语言模型之间关系的调查

在这项调查中，我们解决了大型语言模型（LLM）研究中的主要挑战，重点。

2024-12-21 14:46:00 1561

原创 2024.2 ACM Explainability for Large Language Models: A Survey

用于评估解释合理性的数据集：通常包含带有人类注释理由的文本数据，这些数据在语法、语义、知识、推理和计算等维度上满足一定标准，如句子中包含需要解释的部分（如掩码）和对应的人类注释理由，用于衡量解释模型生成的解释与人类理解的匹配程度。用于训练和评估模型的数据集传统微调范式：如 GLUE 基准中的 SST - 2、MNLI、QQP 等数据集，用于在特定下游任务上对模型进行微调训练和性能评估，这些数据集包含有标签的数据，涵盖了不同类型的自然语言处理任务，如情感分析、自然语言推理等。提示范式。

2024-12-20 20:07:42 1184

原创 2024.4 评估大语言模型在医疗行业应用的综合调查

自 2017 年 Transform 架构启动以来，GPT 和 BERT 等大型语言模型（LLM）已经发生了重大发展，以其在语言理解和生成方面的先进能力影响着各个行业。这些模型已经显示出改变医疗领域的潜力，突出了专业评估框架的必要性，以确保其有效和合乎道德的部署。这项全面的调查描绘了 LLM 在医疗保健领域的广泛应用和必要评估，强调了经验验证的迫切需要，以充分利用其在增强医疗保健结果方面的能力。我们的调查旨在对 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识方面的应用进行深入分析。

2024-12-19 21:26:37 2495

原创 2024.2 BioLORD-2023: semantic textual representations fusing large language models

在 STS（Pearson 相关性）、BCR（Spearman 相关性）和 NEL（Top1 准确度）方面的性能特征。评估的模型如下：BioSyn（2020 年最先进的模型）、SapBERT（2021 年最先进的模型）、BioLORD-2022（我们的基线模型）和 BioLORD-2023（我们的新模型）。在 STS（皮尔逊相关性）、BCR（斯皮尔曼相关性）、NEL（Top1 准确度）和多语言 NEL（Top1 准确度）方面的性能特征。学概念的准确表示和文本的相似性判断。多语言环境下的泛化能力不足。

2024-12-08 23:13:24 976

2025最新Baichuan-M1-instruct部署教程

2025最新Baichuan-M1-instruct部署教程

Benchmarking Foundation Models with Language-Model-as-an-Examine

数学建模优秀论文分析及免费资料分享(3)-2023 出血性脑卒中建模与分析2

数学建模优秀论文分析及免费资料分享(2)-2023 出血性脑卒中建模与分析

A New Semantic Similarity Scheme for more Accurate

2020.6.3使用单词和图的嵌入来衡量统一医学语言系统概念之间的语义相关性

数学建模优秀论文分析及免费资料分享(1)-2022 E草原放牧问题 1

2024华为杯数学建模21-24近三年获奖名单+攻略

疯狂踩坑的《动手学深度学习pytorch》windows10的环境，miniconda+GPU+Jupter

空空如也