医学知识图谱:精准完备全流程
文章平均质量分 95
医学知识图谱、临床知识图谱
Debroon
喜欢研究思维策略、动力策略、AI应用、各种新变化,让自己越来越自由。
展开
-
KGP:在多文档上创建,文档知识图谱
图中还展示了不同类型的节点(圆形代表段落,三角形代表页面,方形代表表格)以及它们之间的关系(绿色箭头表示结构关系,黑色双向箭头表示内容相似性或关键词共享)。答案生成 = 相关信息整合(因为需要汇总检索到的信息) + LLM推理(因为需要根据整合的信息得出答案) + 答案优化(因为需要确保答案的准确性和可读性)这种方法结合了结构化知识(知识图谱)和非结构化推理(LLM),以有效处理不同类型的问题,并在多文档环境中进行智能的上下文检索。在LLM指导的图遍历中,存在一个隐性的特征:上下文感知能力。原创 2024-09-26 10:44:51 · 686 阅读 · 0 评论 -
知识图谱检索 Graph-Based Retriever:文本块到结构化数据的转换,解决语义检索捕获不了的长尾关系
例如:在分析"阿司匹林"和"心脏病"的关系时,不仅考虑直接的治疗关系,还会考虑通过"抗凝血"、"血小板抑制"等中间概念的间接关系,同时还会考虑相关研究的影响力和时效性。这种方法的创新之处在于它结合了结构化的知识表示(知识图谱)和传统的文本检索技术,能够更好地捕获复杂的关系和长尾知识。通过这种全面的拆解和分析,我们可以更深入地理解知识图谱检索方法的各个方面,为进一步改进和优化提供了清晰的思路。这些创新点既保持了原有系统的优势,又在不同方面进行了拓展和深化,有潜力带来显著的改进和新的应用可能。原创 2024-09-25 14:20:20 · 913 阅读 · 0 评论 -
KG-Rank:用知识图谱和多级排序(相似度排名、答案扩展排名、MMR排名、重排)增强大模型,解决医疗问答准确性、多样性
KG-Rank是一个结合医学知识图谱和排序技术的大语言模型增强框架。它通过从知识图谱中检索相关信息,并使用多种排序技术优化这些信息,来提高模型生成长篇医疗问答的准确性。KG-Rank是一个知识图谱增强排序框架,它通过图谱中的知识来增强语言模型的回答,同时用排序技术来筛选最相关的知识。原创 2024-09-25 09:03:33 · 789 阅读 · 0 评论 -
KG-RAG 知识图谱+大模型:医疗问题输入 → 实体识别&链接 → 问题子图 → 子图文本化 → 相似度计算 → LLM问答
KG-RAG框架的全流程如下:接收用户的生物医学问题使用零样本提示技术和GPT-3.5-Turbo模型从问题中提取关键实体利用MiniLM预计算嵌入和Chroma向量数据库将提取的实体与SPOKE知识图谱中的疾病节点进行匹配基于匹配的实体,使用图遍历技术在SPOKE知识图谱中检索相关信息提取与疾病相关的三元组(主体-谓语-客体)关系将检索到的三元组转换为自然语言表述使用句子转换器模型将用户问题和检索到的上下文嵌入到同一向量空间利用余弦相似度计算来筛选最相关的上下文信息。原创 2024-09-24 09:00:29 · 645 阅读 · 0 评论 -
【绝对通俗易懂】知识图谱增强 RAG 思路 和 实现方案
举例:在处理"类风湿性关节炎"和"骨关节炎"这两种常见的关节疾病时,Graph RAG 能准确识别它们在病因、发病机制和治疗方法上的本质区别,避免因表面症状相似而导致的误诊。在传统的语义搜索中,"心肌梗塞"与"胃溃疡"这两个看似风马牛不相及的疾病,可能因为都与"胸痛"这一症状相关而被错误地联系在一起。当你问"我最近头疼、肚子疼、还有点晕,这是怎么回事"时,管理员会从每个症状出发,分别去找可能的原因,给你一个全面的解释。如果能让AI理解医学信息就像经验丰富的医生一样全面和深入,那会是多么令人振奋的突破!原创 2024-09-23 11:47:21 · 1065 阅读 · 0 评论 -
DOG:知识图谱大模型问答的迭代交互式推理,克服长路径和假阳性关系挑战
虽然DoG框架最初是为了解决知识图谱问答(KGQA)中的复杂多跳问题而设计的,但它的核心思想和方法确实可以应用到医学领域,特别是在复杂医疗诊断和决策支持系统中。总的来说,DoG框架是为了解决LLMs在知识图谱问答任务中的局限性而提出的,特别是针对复杂的多跳问题,通过改进推理路径的构建和问题的简化过程来提高答案生成的准确性和可靠性。”,然后再进一步询问该人的死因。DoG框架结合LLM和知识图谱的方法可以应用于医疗AI辅助诊断系统,将先进的语言模型与结构化的医学知识结合,提供更准确、可解释的诊断建议。原创 2024-09-21 18:07:28 · 850 阅读 · 0 评论 -
GNN-RAG:用于大模型推理的图神经检索
基于GNN-RAG的任务,我将提炼出最精华的内容,并按照您的要求进行总结和分析。提炼书籍中最精华的20%(3000字):GNN-RAG是一种创新的方法,旨在结合图神经网络(GNN)和大型语言模型(LLM)的优势,用于知识图谱问答(KGQA)任务。这种方法的核心思想是利用GNN处理复杂的图结构信息,同时借助LLM的自然语言理解和生成能力。主要组成部分:GNN组件:负责处理知识图谱的结构信息密集子图检索:使用PageRank Nibble算法密集子图推理:采用ReaRev模型。原创 2024-09-20 21:47:57 · 1232 阅读 · 0 评论 -
MedGraphRAG:医学版 GraphRAG
不同于现有的以概念-实体关联为主的知识库, 我们更强调因果关联, 刻画疾病的发生、发展、转归的因果链条。可以看到,从数据处理到图谱构建再到语义检索生成,这一方法始终秉持语义优先、因果增强的理念,力求将多源异构医学数据转化为高度结构化、语义丰富的医学洞见,以支撑可解释、有逻辑、会推理的智能诊断。这一技术框架的核心理念, 是充分利用多源异构医学数据, 建立起以因果推理为导向的时序诊断模型, 在纵向时间和横向空间两个维度上, 动态整合患者的多模态医学信息, 形成全景式的诊断路径。原创 2024-08-22 14:51:37 · 957 阅读 · 0 评论 -
KI-DDI:知识图谱 + 大模型 + 图注意力,医学诊断
KI-DDI如何通过考虑每位患者的独特症状描述和生活因素来提供更个性化的诊断和建议,而医学大模型+知识图谱则提供了更标准化但不太具体的诊断方法。采用了受tf-idf方法启发的症状频率-逆疾病频率(sf-idf)方法来确定边的权重,这个权重反映了症状和疾病之间的关联程度。症状频率-逆疾病频率(sf-idf)方法是受到文本分析中广泛使用的tf-idf(词频-逆文档频率)方法启发而来的。有时候还会伴随轻微的恶心感。构建了一个症状-疾病知识图谱(S-S-D),其中症状和疾病作为节点,它们之间的边表示共现关系。原创 2024-08-21 11:31:49 · 1131 阅读 · 0 评论 -
CLR-Fact:大模型在知识图谱上多种逻辑操作问题 --- 会并集,不会交集
医生根据症状集合 {咳嗽,发热,乏力} 查询知识图谱,找出所有可能与这些症状相关的疾病集合 {流感,肺炎,结核,新冠}、检查结果集合{白细胞计数高,肺部X光显示浸润}。模型在处理通用知识领域的逻辑推理任务上表现出色,但当涉及到需要更专业领域知识或更复杂逻辑操作的场景时,它们的表现可能不尽如人意。值得注意的是,LLMs在执行集合并操作时能够熟练应对,但在处理集合交操作时却表现不佳,这在逻辑推理中是一个基础而关键的部分。:系统评估大型语言模型(LLMs)在结合知识图谱的事实知识上进行复杂逻辑推理的能力。原创 2024-08-08 15:14:22 · 827 阅读 · 0 评论 -
【知识图谱+大模型的紧耦合新范式】Think-on-Graph:解决大模型在医疗、法律、金融等垂直领域的幻觉
ToG 方法的本质在于,通过LLM执行的知识图谱上的beam search,分阶段探索和评估推理路径,以便深度推理出复杂问题的精确答案,而 ToG-R 进一步减少了LLM调用,强调文字信息,提高了效率和鲁棒性。LLM使用的是链式思考,首先确认堪培拉是澳大利亚的首都,然后基于2021年9月的信息,认为澳大利亚总理是斯科特·莫里森,属于自由党,所以答案应该是自由党。此外,ToG的性能也受到搜索深度和宽度的影响,通过调整这两个参数,ToG的表现有所提升,尽管提升的幅度在深度超过一定阈值后会减弱。原创 2024-02-02 13:03:10 · 2122 阅读 · 0 评论 -
MindMap:利用知识图谱中的精确、全面信息,并通过大模型进行有效的语义处理和推理
总体而言,MindMap通过创新性地融合知识图谱和大型语言模型,克服了单纯依赖LLM处理复杂查询时的多种限制,为用户提供了更精确、可靠、透明和解释性强的解决方案。MindMap 通过结合知识图谱提供实时知识更新和透明的推理路径,相比传统LLM在处理复杂查询时显著提升了准确性、透明度和解释能力。在此步骤中,我们使用推理图(Gpath m和Gnei m)提示LLM生成最终输出。在此阶段,LLM需要将不同的证据子图(Gq)整合为一个统一的推理图(Gm)。步骤三:LLM在思维图上的推理。原创 2024-06-12 15:53:52 · 1786 阅读 · 0 评论 -
Tree-of-Traversals:结合知识图谱与大模型,通过树遍历和回溯寻找高置信度推理路径
选择“树遍历”或“MindMap”依赖于特定应用的需求。如果项目需要快速响应和能够处理多来源信息的能力,可能倾向于选择“树遍历”。而在需要高度透明和详细解释推理过程的应用,尤其是在医疗诊断等领域,"MindMap"可能更为合适。两者都能提供高准确性,但其效果依赖于所依赖知识图谱的质量和完整性。“树遍历”和“MindMap”都为整合知识图谱与大型语言模型以增强医学诊断提供了坚实的框架。原创 2024-08-03 16:10:45 · 1084 阅读 · 0 评论 -
知识链:知识图谱提升大模型的推理能力,解决多个知识点结合推理时出错 + 个性化方案
这段描述涉及到的“KNOWREASON”数据集、实体、关系、规则、样本以及跳数的概念都是在描述如何用一个复杂的数据结构来支持和训练大型语言模型(LLMs),尤其是在处理多步骤逻辑推理任务时的性能。结合“知识链”方法和MindMap确实是一个有前景的方向,可以创建一个更强大、更全面的推理系统,特别适合于复杂和动态的应用场景如医疗问诊。在这种情况下,随着“hop”数的增加,所需处理的信息和规则变得更加复杂,需要更精确和具体的规则来确保诊断和治疗的准确性。原创 2024-07-11 11:59:47 · 1977 阅读 · 0 评论 -
neo4j 图数据库:Cypher 查询语言、医学知识图谱
需要注意的是,如果该节点还有任何关系,直接删除会失败,因为图数据库要求任何存在的关系都必须有明确的起点和终点。这些查询覆盖了从最基本的节点检索到更具体的带有条件和关系的检索,适合不同的查询需求。在图数据库中,关系可以是有向的,箭头显示了从一个节点指向另一个节点的路径。标签通常用来分类或标识不同的节点,而关系的类型用来描述节点之间的连接方式。这将返回路径中的所有节点和关系,使得你能够获取更多关于路径的具体细节。在实际使用时,根据图的大小和复杂性,你可能需要考虑查询的效率和性能。原创 2024-07-09 10:21:45 · 1370 阅读 · 0 评论 -
GraphRAG = 知识图谱 + RAG,优化全局搜索+局部搜索
基于社区的多层次摘要策略。类似于医学综述文章,从概括性的疾病描述到具体的治疗案例详细讲述,Graph RAG通过从不同层次生成摘要,提供从广泛到具体的多维度信息视角。之所以使用多层次的社区摘要生成,是因为不同层次的摘要可以满足从一般到特定的不同查询需求,提供不同深度的信息视角,帮助用户更好地理解复杂的医学问题。这些子解法形成了一种链条的逻辑链,每个子解法都依赖于前一个解法的输出作为其输入,形成一个高效、层次分明的查询和分析流程,类似于医学诊断和研究中的步骤分解和逐级深入的方法。原创 2024-07-01 09:25:39 · 3474 阅读 · 0 评论 -
CogMG:用大模型解决知识图谱覆盖不足的问题
解决知识覆盖不完整和知识更新不对齐的问题,以增强大型语言模型(LLM)和知识图谱(KG)的协同能力。知识分解子解法:将查询分解为知识三元组特征:因为可以明确识别和定位查询中所需的具体知识单元之所以用知识分解子解法,是因为这样可以有效地将复杂的查询简化为更易处理的部分有助于发现知识图谱中的知识缺口知识补全子解法:利用LLM参数中的知识补全三元组特征:因为可以利用LLM的广泛知识库来填补知识图谱中的空白之所以用知识补全子解法,是因为LLM可以根据其训练数据生成合理的知识补全。原创 2024-06-28 08:56:33 · 1006 阅读 · 0 评论 -
从电子病历(EMRs)构建医学知识图谱
在本研究中,通过使用中国一家三甲医院的大数据平台,我们构建了一个复杂的医学知识图谱,这个图谱不仅包含多种医学实体类型,还采用了四元组结构代替了传统的三元组结构,以提供更丰富的信息和关系表示。本研究通过使用大规模的数据和先进的分析技术,构建了一个能够全面反映糖尿病及其相关条件的知识图谱,这在以往的研究中是很少见的。在之前的研究中,构建糖尿病相关的知识图谱通常只利用了少量的数据,比如特定的医学文献或者小规模的病例记录。在这些四元组中,第四元素提供了关于关系的额外信息,如症状出现的频率或治疗的具体适应症。原创 2024-04-13 12:04:03 · 1497 阅读 · 0 评论 -
PrimeKG:为精准医学分析设计的多模态知识图谱
PrimeKG是为精确医学研究专门设计的一个知识图谱,它集成了来自20个高质量数据源的信息,涵盖17,080种疾病和超过400万种数据关系。这些关系包括了疾病与蛋白质变化、生物过程、身体结构功能以及药物治疗作用等多个层面。与其他知识图谱不同的是,PrimeKG特别强调了包括药物的适应症、禁忌症和非标签用途等通常缺失的药物-疾病关系。原创 2024-04-13 10:04:02 · 1114 阅读 · 0 评论 -
RCTKG:针对用户的罕见病临床试验知识图谱
RCTKG的规模和内容节点和边:知识图谱中有2,216,062个节点和8,437,108条边。节点代表数据点,比如临床试验、疾病等;边则代表节点之间的连接或关系。罕见病与临床试验的关联:这个图谱包含了2,086种被称为GARD的罕见病,这些疾病与一个或多个临床试验有关联。如何使用RCTKG通过编程方式,研究人员可以从这个知识图谱中提取关于临床试验的信息,这支持了罕见病的研究和治疗方法的开发。知识图谱的完善状态当前状态。原创 2024-04-13 09:21:33 · 742 阅读 · 0 评论 -
PBXAI:将疾病预测转为沿知识图谱的随机游走
表格展示了每种预测疾病的概率以及相应的转移概率,例如,患者从现在的高血压、糖尿病、肥胖、贫血状态,预测未来可能继续患有高血压(自循环概率0.88)、糖尿病(自循环概率0.81)、贫血(自循环概率0.87);然后,一个数学对象沿着知识图谱行走,从一个患者实体开始行走,该实体根据患者当前的疾病或者风险因素连接知识图谱,停止在疾病的实体,数学对象的生成轨迹表示患者的疾病发展路径,对象的行走策略由强化学习模块控制,该模块由电子健康记录数据训练。这个图展示的是一个算法的伪代码,具体是疾病预测和路径推理的算法。原创 2024-04-12 17:30:41 · 894 阅读 · 0 评论 -
怎么构建医学临床知识图谱?
因此,面对一个具体的患者,医生可能会选择一个基于个人偏好而不是最佳证据的治疗方案,这可能不是最优的选择,从而影响治疗效果和患者的长期健康。临床知识图谱不仅作为一个信息的整合者,还充当了一个智能的推理工具,它能够基于现有的知识和数据生成新的假设和见解,帮助找到新的治疗方法。然后,CKG还考虑了张阿姨的生活方式,提出了一系列个性化的饮食建议和运动计划,这些都是专门为她的情况量身定制的。最后,CKG分析了这种新药物可能的副作用和张阿姨目前正在服用的药物之间的交互作用,以确保新方案的安全性。原创 2024-04-11 14:58:49 · 758 阅读 · 0 评论 -
【医学知识图谱 自动补全 关系抽取】生成模型 + 医学知识图谱 = 发现三元组隐藏的关系实体对
模型接着在学习到的潜在空间中探索,并生成新的疾病与症状实体对,如生成了一个未在训练数据中直接观察到的实体对:“缺乏维生素D”(疾病实体)和“骨痛”(症状实体)之间的“引起”关系。这个过程使CRVAE能够学习如何从训练数据中捕捉到医疗实体对之间的复杂关系,并将这种理解用于生成新的、潜在的医疗实体对,这可能有助于发现之前未知的医疗关系。模型的这种生成能力特别适用于数据稀疏的领域,比如医疗实体关系发现,其中许多潜在的关系可能尚未被发现或记录在现有的医疗数据库中。原创 2024-02-13 22:32:48 · 2240 阅读 · 0 评论 -
BioMedKGs:算法生成医学知识图谱,解决构建和维护工作量巨大问题
在关系识别方面,BIOS能够识别和表示生物医学概念之间的复杂关系,例如,它可能包含一个关系三元组[阿司匹林, 可治疗, 发热],其中"可治疗"是连接阿司匹林和发热两个概念的关系,展示了BIOS如何用于自动诊断、问答和药物发现等多种AI任务。:我们从文献中收集关于肺结核的术语和短语,并为每个术语建立索引。比如,在BIOS中,“2型糖尿病"这一概念可能会以多种形式和名称存在,如"2型糖尿病”、“II型糖尿病”、“2型糖尿病糖尿病”、“T2DM”、“非胰岛素依赖型糖尿病”、"NIDDM"等。原创 2024-03-31 17:46:40 · 1549 阅读 · 0 评论 -
【医学大模型】TECHGPT-2.0:大模型加强医学知识图谱
通过集成两个7B规模模型和一个QLoRA模型权重,TechGPT-2.0旨在提高模型在构建知识图谱任务上的性能,这包括但不限于提高实体识别(NER)和关系提取(RE)的准确性。传统的大型模型在处理长文本时可能会遇到性能瓶颈,尤其是在注意力机制对长距离依赖捕捉的限制上。TechGPT-2.0通过引入QLoRA和位置插值方法来优化长文本的处理,从而能更好地处理更长的输入序列。TechGPT-2.0的结构和训练方法被优化,以更好地适应特定任务,如知识图谱构建,这通常涉及对特定领域的深入理解。原创 2024-02-26 09:17:48 · 1435 阅读 · 0 评论 -
统一大语言模型和知识图谱:如何解决医学大模型-问诊不充分、检查不准确、诊断不完整、治疗方案不全面?
之前大模型只能给出一个方向性的诊断。在真实世界的临床应用实践上,最后要给出具体疾病的临床分型和分期。从结构的角度出发,利用整体和部分的关系,有序地思考,正确决策,更有助于深度分析思考。医学大模型相当于一个模式识别系统,能迅速反应出 XX 特征 是 XX 疾病。大模型最大的问题就是它的模糊和宽泛,给出的检查方案经常有缺失和缺漏。这种结构化的完备能力,我们能通过 5 种专业的知识图谱实现。但是 ta 做不到完备的、全流程的医生治疗过程。大模型给出的治疗方案往往也是偏方向性的。偏离主诉和没抓住核心。原创 2023-12-16 19:05:11 · 1408 阅读 · 0 评论 -
【医学大模型 数据增强】GPT4 生成多样性医学语料模版,医疗知识图谱抽取实体,填充语料模板
代入角色>假定你是深度学习领域的一位资深训练专家,目前你面临的任务是创建一套用于意图识别的数据集。特别是,在关于“疾病定义”的问题分类中,你发现现有的训练语料库显得相当匮乏。因此,你的目标是为这一特定类别扩充更多的训练样本。为了使问题样本更加多样和口语化,你需要构造各式各样的询问句,这些句子长度不一,风格各异,以避免重复的表达形式。在构建的语料模板中,将用[disease]来代替具体的疾病名,[symptom]用来代替具体的症状,[department]则代表相关的医疗科室。原创 2024-03-21 09:47:01 · 5431 阅读 · 2 评论 -
MPIKGC:大语言模型改进知识图谱补全
知识图谱就像一个大数据库,里面有很多关于不同事物的信息,这些信息是以三元组的形式存在的,比如(人物,关系,事物),如(Ian Bryce,制片,变形金刚:月黑之时)。基于描述的KGC方法通过分析文本描述来理解实体和关系,而大型语言模型则为这些方法提供了一个强大的工具,可以深入挖掘文本中的知识,帮助填补知识图谱中的缺口。:通过这样的操作,我们不仅补充了单个疾病的信息,还在不同疾病之间创建了新的联系,有助于揭示它们之间可能的共同生物学机制或治疗方法的对比。原创 2024-03-18 22:06:22 · 1695 阅读 · 0 评论 -
用临床知识图谱 + 医学文本向量库,设计一个医疗诊断系统
两大类深度学习模型,分别用于不同的自然语言处理(NLP)任务:词嵌入模型是一类用于将单词、短语或者文档转换为向量形式的模型。这些向量捕捉了单词之间的语义关系,如相似性或上下文关联。例如,text2vec、M3E等模型能够将文本中的每个单词映射到一个高维空间中的点,这个点的位置与单词的语义密切相关。通过这种方式,模型能够理解和处理自然语言,为诸如文本分类、情感分析等任务提供基础。举个例子:在词嵌入模型中,"king"和"queen"这两个词虽然是不同的,但它们在向量空间中的位置会非常接近,因为它们有着相似的上原创 2024-04-09 17:30:46 · 1262 阅读 · 0 评论 -
【大模型信息抽取】KnowLM:知识图谱 + 大模型,实现更有效的信息抽取和知识管理
结构化输出格式(s_format)可以为:“{‘head’: ‘头实体’, ‘relation’: ‘关系’, ‘tail’: ‘尾实体’}”。右侧更专注于指令数据集,包括实体识别(NER)、关系抽取(RE)、事件抽取(EE)等NLP任务,以及各种中文和英文的数据集。左侧用于预训练的数据集,包括中文(红色)、英文(绿色)、代码(蓝色),以及这些数据的处理步骤,如分词、清洗等。目前需要从大量文本中,抽取信息,构建知识图谱,加强和补足大模型的专业能力,避免胡说八道、宽泛模糊问题。原创 2024-02-02 09:47:32 · 11716 阅读 · 4 评论 -
基于多数据源融合的医疗知识图谱框架构建研究
医疗大数据通常包括规范的电子病历、医疗健康社区中的用户生成内容(UGC)、医疗词典资源和相关政策文件等,这些数据根据其表现形式,可以被分为结构化数据、半结构化数据和非结构化数据三类。中文医疗知识图谱的构建过程,包括多数据源融合、医疗文本数据处理、医疗实体识别、实体及实体关系标注、实体链接与知识融合、实体关系抽取、知识图谱表示及存储和图谱的动态构建等关键技术环节。:收集到的数据需要进行清洗和预处理,包括格式统一、去除噪声数据、数据分词和词性标注等,以提高数据质量,为后续的实体识别和关系抽取打好基础。原创 2024-04-02 10:52:47 · 1460 阅读 · 0 评论 -
【医学实体识别】从糖尿病论文和临床指南中,做关键信息分类
BiLSTM层的输出是每个单词对于不同实体类别的分数(例如B-Person表示一个人名的开始,I-Person表示人名的内部,B-Organization表示组织名的开始,I-Organization表示组织名的内部,O表示不属于任何实体类别)。例如,当处理用户的医疗咨询问题时,可以利用这个实体识别模型来分析问题文本,识别出里面提到的医疗实体,然后根据这些实体和知识图谱中的信息进行匹配,找到最合适的答案或建议给用户。在这句话中,命名实体识别(NER)的任务是识别并分类句子中的关键信息。原创 2024-03-25 11:23:59 · 1050 阅读 · 5 评论 -
【医学大模型 动态知识图谱】AliCG概念图 = 知识图谱 + 实时更新、细粒度概念挖掘、个性化适应
AliCG的部署方法通过文本重写、概念嵌入和概念化预训练,提升了信息检索质量、神经网络的概念学习能力以及模型的预训练效果,这些方法分别针对信息检索中的文本理解、深度学习模型的概念理解能力和预训练阶段的知识注入问题,提供了有效的解决方案。这两张图表共同展示了阿里巴巴开发的概念图的复杂和动态性质,用以提高语义搜索能力。与以往的方法不同,这种方法利用用户行为来估计给定实例的概念置信分数,通过统计用户的搜索和点击行为来估算概念置信度,并结合隐式和显式用户行为的数据,构建一个动态演变的分类体系。原创 2024-02-13 15:04:50 · 3218 阅读 · 0 评论 -
【大模型 知识图谱】ChatKBQA:KBQA知识图谱问答 + 大模型
生成阶段说明了ChatKBQA如何使用训练数据(自然语言问题与对应的逻辑形式)通过指令调优来fine-tune开源LLMs。展示了输入的自然语言问题是如何经过fine-tuned的LLM和beam search来生成候选的逻辑形式。检索阶段展示了如何从知识库中检索与候选逻辑形式相匹配的实体和关系。介绍了无监督检索的使用,如SimCSE、Contriever和BM25,来优化逻辑形式,并最终生成可以执行的SPARQL查询。原创 2024-02-18 19:17:30 · 2428 阅读 · 0 评论 -
HyKGE = 预检索阶段生成假设性输出 + 知识图谱深入探索 + 信息片段重排序,解决了查询不完整性、准确度和深度不足、展示不佳问题,提升了答案的准确性、相关性和体验。
基于现有方法的局限性,作者提出了假设知识图谱增强(HyKGE)框架,该框架旨在通过结合知识图谱和LLMs,利用LLMs的零样本能力和预训练知识来弥补用户查询的不完整性,从而提供更准确和可靠的回答。通过上述四个子解法的组合运作,HyKGE框架能够有效地处理用户查询的不完整性,精准地从知识图谱中检索和整合信息,同时过滤掉噪声,最终提供准确、相关且高质量的回答。通过这种逐步拆解的方式,HyKGE框架利用LLMs的强大生成能力和知识图谱的准确性,有效处理了用户查询的不完整性,提高了回答的准确度和用户体验。原创 2024-03-31 23:13:18 · 1309 阅读 · 0 评论