01.摘要
维护计划是预测性维护的重要组成部分,涉及任务规划、资源调度和预防。随着现代工厂中大规模传感器系统的应用,在复杂工业设备的监测和维护过程中会获取大量数据。积累的数据有助于使维护计划变得更加全面和及时。最近,知识图谱(KG)被用于从语义上处理大规模、无组织的维护数据,从而更好地利用数据。一些先前的研究利用 KG 通过语义搜索或基于图结构的算法进行维护计划,但忽略了潜在联系的预测。为了填补这一空白,首先基于明确定义的特定领域本体模式和积累的维护数据建立了一个面向维护的 KG。然后,提出了一种基于注意力的压缩关系图卷积网络来预测潜在解决方案并解释维护任务中的故障。最后,以石油钻井设备的维护案例进行研究,将所提出的模型与其他前沿模型进行比较,以证明其在链接预测方面的有效性。这项研究有望为未来在维护计划推荐中应用 KG 提供启示。
02.主要贡献
(1)鉴于维护场景中知识使用效率低且缺乏统一标准,提出了一种 MKG 的本体模式。该模式有效地、合理地将维护元素安排成多个层次,为其他维护活动以 KG 方式构建其信息提供了一种模型范式。
(2)提出了一种链接预测模型 ACRGCN,其中节点可以通过不同的表示进行充分传播和嵌入,并且不同阶段的输出被整合,从而防止过度传播。这种架构是为 MKG 的稀疏性和不平衡节点类型特征量身定制的。
(3)提供了一个用户友好的问答系统,以降低知识图谱搜索推理的操作难度,并弥合工程师语言和知识图谱术语之间的差距。该系统集成了 MKG、ACRGCN 和自然语言处理技术,满足了方便和用户友好的目的。
03.主要内容
A. 问题概述
给定一个 MKG:GM = (V , ξ),V 代表节点,ξ 表示边。这个 MKG 是由维护知识和经验建立的,但它可能不完整,随着维护任务的增加。因此,预测链接可以为不常见的维护任务提供潜在解决方案和合理解释。
尽管先前的基于嵌入的链接预测方法表现出色,但它们可能不适合 MKG。这是因为 MKG 的节点遵循长尾分布,一些节点出现的频率较低,影响模型性能。例如,许多原因与 “高温” 和 “轴承故障” 有关,但很少与 “冷却液污染” 有关。因此,这种长尾分布将导致两个问题:主题单调和聚合不良。首先,主题单调问题意味着推荐的项目相似且具有相似的表示。会推荐一组最准确但范围狭窄的项目,无法满足多学科知识的要求。从长远来看,所推荐的项目与操作人员之前获得的项目相似,从而导致维护性能不佳。另一方面,第二个问题是聚合不良。由于长尾分布现象,一些节点类型可能只占总数的一小部分。不常见的节点通常节点度较低,导致消息传递和节点嵌入效果不佳。先前的链接预测方法是在节点类型和连接情况平衡良好的经典数据集上进行评估的,可能与上述情况不太相似。
基于 RGCN 结构,本文提出了一种 ACRGCN,其中涉及的图注意力网络和压缩机制可以克服上述 MKG 的稀疏性和长尾分布问题。如图 4 所示,左上角是该模型的输入,包括节点特征矩阵和图结构矩阵。需要注意的是,图结构矩阵用于 RGCN 模块和 DeRGCN 模块(公式(7))。输入数据在经过一些编码器模块后将通过一个图注意力机制,如图 4 右侧所示。然后,中间结果将经过解码器部分,在那里将进行与编码器阶段相反的计算。同时,编码器和解码器通过一个残差块进行交叉计算,相同层的编码器和解码器将通过加法连接。最后,所提出的模型可以根据触发节点预测实际的链接。
B. 压缩 RGCN 机制
由于故障症状多样且维护经验不标准,MKG 有很多节点但连接规模较小。受自动编码器的启发,本文通过 RGCN 模块将节点特征缩放为高度密集。RGCN 模块在编码器部分降低节点特征的维度。每个编码器模块依次涉及 RGCN、批量归一化、ReLU 激活函数和 Dropout 函数(最后一个模块没有 Dropout)。这种机制可以参考图 4 的上部。RGCN 模块可以参考公式(9),它遵循维度降低的方式。例如,如果的维度是 256,那么的维度是 128。因此,编码器过程可以根据公式(9)重新表述为:
C. 图注意力网络
传统的异构图无法为不同的节点分配不同的学习权重。因此,本文在压缩 RGCN 机制中间堆叠传统的图注意力网络(GAT)。如图 4 所示,数据在经过编码器之后和解码器之前将通过 GAT,其公式如下:
D. 残差块
RGCN 中的聚合表示节点特征之间的消息传递。在某些情况下,聚合过程可能过于激进,导致在反向传播过程中梯度消失或爆炸。为了克服这个问题,实施了一个残差块来改进带有残差块和恒等映射的 RGCN。与传统的残差块不同,传统残差块将前一层的输入与当前层的输出相加,而本文提出的模型使用残差块在相同的相对位置连接解码器部分和编码器部分,如图 4 所示。这种新颖的机制可以在相同的表示水平上整合原始信息。例如,一个残差块将编码器部分第二个模块的输入与解码器部分倒数第二个模块的输出相加。残差块的公式如
E. DistMult
解码器最后一个模块的输出已经经过良好训练,可以用于预测 KG 中可能的链接。采用 DistMult 分数函数来计算可能边的可能性。给定一个三元组(h,r,t分别是头节点、关系、尾节点),经过良好训练的节点表示yni可以通过以下公式获得:
基于嵌入节点,一个三元组可以通过以下方式组合:
基于上述输出,定制的损失函数如下所示:
本文提出的模型采用结构距离作为分数函数,可以表述为
F. 案例研究
石油钻井设备在其生命周期中产生了大量有用知识。首先,石油钻井设备经历了许多维护任务,这些维护经验已经被记录下来。此外,配备的传感器跟踪设备的健康状况,提供了大量的设备状况信息。基于上述可用资源,可以通过知识提取方法提取石油钻井特定的维护知识,并将其存储在一个图知识库(Neo4j)中,如图 6 所示。这个图包含故障症状、原因解释、解决方案、定期维护指令和机械组件。根据图 6,各种类型的节点连接在一起,为探索潜在关系提供了基础。具体来说,这个 MKG 中涉及的故障症状包括超压、低压、磨损、腐蚀、剥落、泄漏和过载,位于许多机械组件上,如动力端、液端、气囊、活塞、十字头、轴承、齿轮、油管、油罐、顶驱。针对这些故障类型,这个 MKG 能够通过搜索或基于图嵌入的推理推荐维护计划。本文重点利用 ACRGCN 预测 KG 中缺失的链接,以进行维护计划推荐。
04.实验
评价指标:
实验结果:
-
对比实验:
所提出的 ACRGCN 旨在预测 KG 中缺失的链接,指示潜在的解决方案或解释。本实验将所提出的模型与不同模型在链接预测任务中进行比较,结果将分别从总体性能、原因推理性能和解决方案推理性能进行分析。具体来说,原因推理负责预测 “Cause by” 边,而解决方案推理代表 “How to fit” 边。两者在协助操作人员进行维护方面都很重要。
首先,图 7 全面展示了在 MRR、Hit@1、Hit@3 和 Hit@10 方面的比较结果(“总体” 情况)。总体而言,所提出的模型在 MRR、Hit@1 和 Hit@3 方面取得了最高值,而在 Hit@10 方面仅略逊于表现最佳的模型。特别是在 Hit@1 方面,所提出的模型与比较模型之间的平均差距较大。
此外,图 8 展示了不同模型预测 “Cause by” 边的性能。ACRGCN 模型在 MRR 和 Hit@3 方面往往比其他模型表现更好。相比之下,它在 Hit@1 和 Hit@10 方面均排名第二。
此外,解决方案推理的性能可以在图 9 中看到。所提出的 ACRGCN 在 MRR、Hit@1 和 Hit@3 方面具有最佳性能。相比之下,它在 Hit@10 方面未能取得最佳性能,但仍保持了显著的性能水平。
综合考虑,所提出的 ACRGCN 在 MRR 方面具有最佳性能,在 Hit@1 和 Hit@3 的大多数情况下也是如此,这意味着所提出的模型最有可能在其推荐的候选集中包含最优链接。然而,它在 Hit@10 方面没有取得最佳性能,尽管性能也很显著。一个可行的解释是,所提出的 ACRGCN 对节点嵌入和边嵌入进行了深度聚合。因此,重要信息将被赋予更大的突出性和权重,导致 Hit@1 和 Hit@3 较高。相反,这种聚合可能导致一些样本偏离其原始表示。因此,一些次要信息将被削弱,降低了 Hit@10。然而,在这种维护场景中,Hit@10 不如 Hit@1 和 Hit@3 重要,因为大多数操作人员将关注前几个项目,而不是浏览预测边直到第 10 个项目(Hit@10 表示前 10 个项目中的目标项目)。
此外,进行了一项消融研究以验证不同模块的贡献,如表 5 所示。在这项消融研究中,四个主要组件,压缩机制、RGCN、残差块和 GAT 将分别被移除,前缀为 “without”。总体而言,表 5 显示了四种情况比所提出的 ACRGCN 表现更差,除了 “总体” 和 “How to fit” 中的 Hit@10。这项消融研究表明,带有所有定制模块的所提出模型取得了最佳性能,验证了不同模块的贡献以及 ACRGCN 模型架构的有效性。
此外,ACRGCN 模型最后一层的节点嵌入在三维空间中进行可视化(图 10),以直观地说明所提出模型的效果。如图 10 所示,图 10(a)表明所提出的 ACRGCN 也可以将相同类型的节点聚类到同一区域,特别是症状节点(红色)。同时,其他模型也能够聚类相同类型的节点,但更加分散且重叠较大。
图 10 证明了所提出的 ACRGCN 模型能够成功生成具有代表性的节点嵌入。
同时,提供了训练数据集和测试数据集的损失曲线,以验证模型已经得到了良好的训练。如图 11 所示,这两条损失曲线都能快速收敛。特别是,训练过程的损失值略小于测试过程的损失值,符合一般假设。
进一步提供一个示例来说明链接预测在维护计划中的作用。以石油钻井的动力端组件为例,它包括两个子组件:曲轴和小齿轮轴。这两个组件有机械连接,它们的故障症状以及相应的解决方案和原因可以用 KG 形式描述,如图 12 所示。需要注意的是,组件可能有相同的症状,不同的症状可能有相同的解决方案和原因。
原因和实际解决方案在 KG 中积累,并与相关症状相连。如图 12 所示,曲轴和小齿轮轴都有高温和噪声问题,这两个症状有一些相同的解决方案和故障原因。一些常见的原因(例如磨损)和解决方案(例如更换)已经与现有的症状相关联。另一方面,一些新发现的原因和潜在的解决方案可能没有与症状完全连接。
例如,由于油管清洗是解决 “高温” 问题的一种实际方法,所以创建了油管清洗节点并与 “高温” 节点相连。在某些情况下,噪声症状可能也可以通过清洗油管来解决,因为 “噪声” 症状节点和 “高温” 症状节点有许多共同连接的节点。因此,所提出的 ACRGCN 模型可以预测 “噪声” 和 “油管清洗” 节点之间缺失的链接(图 12 中的红色虚线),作为维护计划的推荐解决方案。虽然这种方法旨在实现自主维护计划,但在现实世界中无法保证预测的边总是准确的。因此,工程师或操作人员有必要根据自己的经验和置信水平来评估这些推荐。
-
问答系统:
开发了一个问答(QA)系统,以促进 MKG 的应用,并解决石油钻井维护任务中知识缺乏的情况。借助自然语言处理技术,QA 系统能够理解操作人员的目的,并生成语义句子作为答案。MKG 和所提出的 ACRGCN 模型已嵌入 QA 系统中,用于搜索答案所需的元素。
例如(图 13)是一个关于石油钻井设备噪声大的查询。可能无法从一个不完整的句子中提取所需的实体。例如,查询句子只包含症状实体(噪声),尽管许多组件都可能有异常噪声。因此,QA 系统需要主动询问操作人员以获取缺失的组件信息。QA 系统将给出一个合理的实体集供操作人员选择,以提高用户友好性。所提出的 ACRGCN 和 MKG 将在系统获取所有相关元素后计算潜在链接并对实体进行排序。最后,QA 系统根据排序后的实体和识别出的操作人员的目标输出一个可靠的句子。此外,输出句子以语义方式包含排名信息作为对操作人员的推荐(例如主要原因和次要原因)。同时,操作人员可以向 KG 提供反馈以提高其质量。例如,如果操作人员对输出结果满意,这个预测的链接将被记录在这个 MKG 中。
此外,建立了一个特定的机制,以在不断提高 KG 质量的同时最大限度地利用 MKG,如图 14 所示。操作人员在 QA 系统中发送一个查询句子,这将转换为 KG 中的搜索触发条件。这些搜索触发条件将传递给 QA 系统,为维护任务生成一个答案。然而,如果 KG 无法搜索到任何内容,所提出的 ACRGCN 模型将被激活以预测潜在链接作为推荐,并且 KG 将根据工程师的反馈进行更新。此外,所提出的 ACRGCN 模型可以定期优化 KG。
总结
KG 在记录大量用于维护计划推荐的领域专业知识方面显示出了优势。未来的愿景是如何探索潜在关系,为不熟悉的维护任务提供可解释和实用的解决方案。为了实现这一目标,本文提出了用于维护计划的 ACRGCN,它可以解释故障症状并转移现有解决方案。据作者所知,这是首次尝试在 MKG 中应用基于嵌入的链接预测进行维护计划推荐。
然而,这项研究也面临一些限制。例如,(1)实验 KG 的节点和边是用中文描述的,其图嵌入表示可能受到限制,(2)KG 的有效性受到可用维护数据的质量和数量的显著影响。预计这项研究可以为在维护计划中应用 KG 提供更多的见解。同时,可以通过以下方式进行进一步的研究:(1)在 KG 中包含时间信号模式,(2)在这个 KG 上开发节点分类方法。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。