利用大模型构建骨架材料知识图谱及其应用 - 北京工大&华东理工等

最新推荐文章于 2025-04-24 15:16:35 发布

Python_金钱豹

最新推荐文章于 2025-04-24 15:16:35 发布

阅读量676

点赞数 17

文章标签：知识图谱 easyui 人工智能算法机器学习大数据前端

本文链接：https://blog.csdn.net/Python_cocola/article/details/147462522

版权

《Construction of a knowledge graph for framework material enabled by large language models and its application》。

代码和测试集可在https://github.com/MontageBai/KGFM访问

摘要

骨架材料（FMs）已受到广泛研究，大量文献记录了它们的独特性质和潜在应用。尽管如此，这一新兴领域的全面知识图谱尚未构建。在本研究中，通过利用大型语言模型（LLMs）的自然语言处理能力，我们建立了一个全面的知识图谱（KG-FM）。它涵盖了包括金属有机骨架（MOFs）、共价有机骨架（COFs）和氢键有机骨架（HOFs）在内的骨架材料的合成、性质、应用等方面。该知识图谱通过分析超过100,000篇文章构建而成，共有253万个节点和401万个关系。随后，探索了其应用于增强数据检索、挖掘以及开发复杂问答系统的潜力。特别是当将知识图谱与大型语言模型集成时，所得到的Qwen2-KG不仅在问答任务上达到了91.67%的更高准确率，还提供了精确的信息来源。

核心速览

研究背景

研究问题

这篇文章要解决的问题是为骨架材料（Framework Materials, FMs）构建一个全面的知识图谱（Knowledge Graph, KG），并探索其在信息检索、数据挖掘和复杂问答系统中的应用。
研究难点

该问题的研究难点包括：骨架材料种类繁多，文献信息碎片化且非结构化，如何高效地提取和组织这些信息以构建知识图谱。
相关工作

该问题的研究相关工作包括对金属有机骨架（MOFs）、共价有机骨架（COFs）和氢键有机骨架（HOFs）的研究，但尚未有综合性的知识图谱被构建。

研究方法

这篇论文提出了利用大型语言模型（LLMs）的自然语言处理能力来构建骨架材料知识图谱的方法。具体来说，

文献信息收集

：首先，从Web of Science数据库中检索并收集了截至2024年5月8日的相关文献，使用以下搜索查询：

TS=(MOF\text{ OR MOFs OR"Metal Organic Framework" OR"Metal- Organic Framework")TS=(COF\text{ OR COFs OR"Covalent Organic Framework" OR"Covalent- Organic Framework")

2. 摘要信息提取：使用Qwen2-72B模型将摘要文本转换为包含逻辑关系的JSON格式。模型的任务和输出格式在提示中定义。

3. 知识图谱构建：使用Neo4j软件构建知识图谱，通过Python接口导入LLM生成的出版信息和JSON文件。构建的知识图谱包括2.53百万个节点和4.01百万个关系。

LLMs与知识图谱的集成：采用检索增强生成（RAG）过程，分为三个步骤：生成Cypher查询、执行查询并检索数据、制定答案。整个过程的代码可以在GitHub上找到。

实验设计

数据收集

：从Web of Science数据库中检索并收集了超过100,000篇相关文献，存储为多个txt文件。
样本选择

：选择了MOFs、COFs和HOFs的相关文献，分别有68,400篇、21,776篇和15,203篇。
参数配置

：使用了Qwen2-72B、Meta-Llama-3-70B、GLM-4-9b-chat等多种LLMs模型，并通过Neo4j 5.12.0进行知识图谱的构建和可视化。

结果与分析

知识图谱构建结果：构建的知识图谱包括2.53百万个节点和4.01百万个关系，涵盖了框架材料的基本信息、性质、应用和来源。
信息检索与数据挖掘：通过Neo4j平台的图形界面，可以方便地进行文献查询。例如，查询Li等人关于BUT-55的研究，结果显示该论文聚焦于材料BUT-55及其在苯痕量吸附中的应用。
LLMs性能评估：设计了一个包含150个问题的测试集，评估了不同LLMs模型的性能。Qwen2-KG模型的准确率为91.67%，显著高于现有模型（如GPT-4的33.33%）。

总体结论

这篇论文展示了利用LLMs构建骨架材料知识图谱的潜力，并将其应用于信息检索、数据挖掘和复杂问答系统。通过集成知识图谱，LLMs在骨架材料领域的问答准确性显著提高，达到了91.67%。该研究为未来在各个研究领域构建综合性知识图谱提供了重要的参考和方法论支持。

论文评价

优点与创新

构建全面知识图谱

通过利用大型语言模型（LLMs）的自然语言处理能力，成功构建了一个包含2.53百万节点和4.01百万关系的全面知识图谱（KG-FM），涵盖了金属有机骨架（MOFs）、共价有机骨架（COFs）和氢键有机骨架（HOFs）的合成、性质、应用等方面。
数据规模庞大

分析了超过100,000篇文章，生成了大量的结构化数据，显著提升了知识图谱的覆盖面和详细程度。
高准确率的问答系统

将知识图谱与LLMs（如Qwen2-KG）结合，实现了高达91.67%的问题回答准确率，显著优于现有模型（如GPT-4的33.33%）。
增强链式思维推理

知识图谱在LLMs的链式思维（CoT）推理任务中提供了丰富的背景信息，显著提升了推理质量和可解释性。
多领域应用

知识图谱不仅用于信息检索和数据挖掘，还应用于复杂问题的回答，展示了其在材料科学及相关领域的广泛应用潜力。
自动化构建过程

：利用LLMs自动提取、语义分析和解释文献内容，减少了人工整理和整合信息的劳动强度，提高了知识图构建的效率。

不足与反思

局限性

尽管知识图谱在多个方面表现出色，但仍存在一定的局限性，例如在某些情况下，LLMs可能无法完全理解复杂的背景信息，导致回答不够准确。
下一步工作

未来的研究可以进一步优化知识图谱的构建过程，提升LLMs在处理复杂问题和跨学科链接方面的能力，进一步推动AI在科学研究中的应用。

关键问题及回答

问题1：在构建骨架材料知识图谱的过程中，如何利用大型语言模型（LLMs）进行摘要信息的提取？

任务和输出格式定义

首先，定义Qwen2-72B模型的任务和输出格式。任务是将摘要文本转换为包含逻辑关系的JSON格式。
数据预处理

将从Web of Science数据库中检索到的文献摘要文本保存为TXT文件，便于后续处理。
信息提取

使用Qwen2-72B模型对摘要文本进行处理，识别关键信息（如研究方法、实验结果、理论概念等），并将其组织成节点和关系。
验证和调整

手动检查提取的结果，确保信息的准确性和完整性。根据验证结果调整模型的提示和参数，以提高提取质量。

通过上述步骤，Qwen2-72B模型能够有效地从摘要文本中提取关键信息，并将其转换为结构化的JSON格式，为知识图谱的构建提供高质量的数据输入。

问题2：知识图谱构建过程中使用了哪些工具和技术？具体的构建流程是怎样的？

数据收集和预处理

从Web of Science数据库中检索并收集了超过100,000篇相关文献，存储为多个txt文件。
信息提取

使用Qwen2-72B模型将摘要文本转换为包含逻辑关系的JSON格式。
知识图谱构建

数据导入

通过Python接口将LLM生成的出版信息和JSON文件导入Neo4j图数据库。
关系映射

将提取的节点和关系数据与Neo4j中的节点进行手动定义的关系映射，如"Derived from"、“Published in(Journal)”、"Published at(Date)"等。
可视化和分析

使用Neo4j Docker进行数据可视化和分析。

具体的构建流程包括以下几个关键步骤：

数据收集和预处理：检索并整理文献数据。
信息提取：使用LLM提取摘要中的关键信息。
知识图谱构建：将提取的数据导入Neo4j并进行关系映射。
可视化和分析：通过Neo4j平台进行数据可视化和分析。

问题3：在评估LLMs与知识图谱集成性能的实验中，设计了一个包含150个问题的测试集，这些问题的设计是如何进行的？

问题来源

：测试集的问题主要来源于骨架材料领域的研究，涵盖了材料的基本信息、性质、应用等多个方面。
问题类型

：问题类型包括选择题、填空题和简答题等，旨在全面评估LLMs在不同类型问题上的表现。
标准答案

：每个问题都配有标准答案，由两位领域专家进行判断。答案的正确性基于信息的准确性和相关性。
评估标准

：答案的正确性由领域专家根据答案的内容和准确性进行评判。正确答案必须提供准确无误的信息，无任何误导性内容。

通过上述设计，测试集能够全面评估LLMs在骨架材料领域的知识掌握情况和问题解决能力，验证了知识图谱集成对LLMs性能的提升效果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述