原文:Advancing multimodal diagnostics: Integrating industrial textual data and domain knowledge with large language models
01.摘要
大型语言模型(LLMs)在各个领域的快速发展和应用促使人们开始研究其在预报和健康管理(PHM)领域的潜力,尤其是在增强数据驱动模型能力方面。本研究探讨了如何利用大语言模型将技术文档和维护日志等非结构化文本数据中积累的领域知识整合到诊断模型中。这项研究展示了利用数据的新可能性,传统上,由于数据的复杂性和特定领域术语的存在,这些数据一直未得到充分利用。通过利用 LLMs 从这些文本中进行上下文理解和信息提取,本研究提出了一种将文本数据与现有状态监测系统相结合的新方法,以提高诊断模型的准确性。一项关于水力发电机的案例研究说明了将 LLMs 集成到 PHM 系统中的可行性和价值。研究结果表明,将 LLMs 集成到 PHM 系统中可以提供更明智、更准确的诊断,最终提高工业环境中的运行效率和安全性。
02.主要贡献
(1)探讨了在预测与健康管理(PHM)中提出了一种创新性方法,将工业文本数据和领域知识与大型语言模型相结合,增强诊断模型的准确性;
(2)通过水力发电机的案例研究,展示了这种方法的可行性和价值;
(3)进行了详细的消融实验,评估了文本数据如何作为额外的监控来源或加权机制影响模型性能;
03.主要内容
A. 问题陈述
作者考虑了两种主要类型的工业文本数据。第一组包括构成技术人员知识库的文档,如专有指南、维护说明和行业标准,这些文档通常是标准化的和格式良好的。第二组由技术人员和可靠性人员在检查期间所做的记录和备注组成。这些条目通常是与目视检查相关的简要说明,由于其可变性和缺乏标准化,因此对其处理存在挑战。与结构良好的文档不同,这些短格式文本经常包含特定领域的术语、缩写、口语表达以及诸如印刷错误或不相关信息之类的噪声,这些对于传统的NLP算法来说是难以解释的。所以对于第二组数据的处理是充满挑战的。
同时作者还探讨了处理非英语行业(尤其是法语地区)的技术文本所面临的挑战。虽然NLP领域最初是围绕英语开发的,但使用NLTK和IBM的语言工具等工具,在PHM系统中处理非英语的工业文本会带来额外的复杂性。从管理特殊字符到克服以英语为中心的深度学习模式的局限性,这些都包括在内。尽管现代大型语言模型(LLM)通常具有多语言功能,但其在非英语文本,尤其是那些充满行业术语和特定领域知识的文本上的表现仍然不太可靠,评估也不太全面。尽管多语种LLM有时表现出比单语种模型上级的语言理解和任务完成能力,这表明基础语言原则可以增强模型构建,但在处理工业文本的专业化和简洁语言时,它们仍有不足之处。这一差距突出表明,还需要对LLM加强工业应用方面的培训和调整。
B. 提出方法论
作者设计了一种创新方法,通过战略性地使用语言技术来增强工业系统的 PHM。所提议方法的特点在于其利用简短检查笔记的独特能力,而这些笔记在工业环境中一直未得到充分利用。通过整合这些笔记,旨在显著提高降级水平计算的准确性。此外,该方法还能确保检查说明与诊断流程中的实际相关性保持一致,反映其真正的物理意义。这种方法的核心是使用LLM,该LLM根据特定领域的知识进行微调,以模仿人类在状态监测中的评估过程。这样就可以对复杂数据进行更复杂的自动解读,从而减少与人为判断相关的错误,提高诊断程序的效率。所提出的方法论如图1所示。
第一步是选择和微调领域知识的LLM,在机械运行生命周期中,可靠性人员检查设备或收集状态数据,利用他们的专业知识评估退化水平。这种专门知识往往得到培训材料和行业标准等正式文件的支持。该过程首先选择LLM并使用这些特定领域的文本对其进行微调,以增强其与特定行业需求的相关性。LLM通常接受各种文本类型的训练,这为它们提供广泛的知识基础。微调LLM类似于将全科医生转变为专业专家,专为解决特定行业的挑战而量身定制。为特定行业选择LLM涉及评估其处理行业主要语言的能力。微调是通过掩码语言建模完成的,这是一种通常用于模型预训练的技术。它是一种自我监督的训练方法,用于熟悉文本语料库上的模型。通过从训练语料库中预测随机掩蔽部分来完成文本,从而训练模型。虽然这通常是一种预训练技术,但作者使用它来微调已经训练过的具有特定领域文本的LLM。
第二步是使用微调的LLM嵌入检查记录与备注,此步骤的目标是获得准确反映其上下文含义的检查记录与备注的矢量表示。因此,与没有这种专业化的通用模型相比,使用特定领域知识进行微调的LLM更善于在相关上下文中有意义地嵌入简短文本。在标记化之后,离散的文本单元必须转换为数字表示,这对机器学习算法至关重要。嵌入是连续空间中的向量,封装了标记的语义属性。随着Transformer架构的发展,上下文嵌入(考虑周围文本以生成更精确的嵌入)已成为最先进的技术。嵌入是本研究中的关键步骤,其中的过程包括从知识库嵌入创建一个向量数据库。具体来说,使用作者提出的模型嵌入文档,并将这些向量存储在数据库中。这些嵌入的质量,特别是对于非英语语言,提出了一个挑战,因为没有现有的基准。因此,嵌入的有效性是通过其对准确计算专家确定的退化程度的贡献来间接评估的,而不是直接衡量它在多大程度上代表了相关信息。
第三步是使用嵌入的短文本对监控数据加权处理,最后一步旨在根据检查数据量化机器的退化程度,强调检查记录的战略性使用。通常情况下,这些说明不是直接的测量结果,而是可靠性人员从各种数据源中总结出的重要见解。起草这些说明的人员都经过培训,以观察退化评估过程中的相关症状,因此这些文本对于准确评估退化程度至关重要。我们的方法创新性地将这些检查说明整合到模型中,不仅将其作为另一个数据源,还将其作为一种手段来增强从检查数据中得出的特征权重。这些笔记由训练有素的技术人员撰写,随后通过利用特定行业知识进行微调的 LLM 对其进行处理。这一过程包括创建检测记录的矢量表示。这些向量会影响我们之前开发的诊断模型中重要特征的权重。通过利用检查笔记中的详细见解,该模型可以完善诊断结果。我们比较了将检查笔记中的特征与检查数据中的特征相结合的两种方法:直接输入文本数据和将文本数据作为注意力权重(公式(1)至(7))。
第一种直接方法是将检测数据特征X与嵌入文本特征E并列,得到融合特征Y = [X; E] 。特征。第二种方法是使用文本数据特征E作为注意力权重,定义的键(K)、值(V)和查询(Q)的变换如下:
其中,θ是模型ƒ的参数。
对于多模态数据驱动的诊断,作者提出的架构包含对每个数据源的特征提取,从而形成一个融合层。该层根据领域知识进行选择,位于输出端附近,可优化整合状态监测数据的特征。由领域知识微调的 LLM 进行矢量化的检测说明,通过对退化程度评估的最相关特征进行加权,增强了这一层。如图1所示,这种设置使微调 LLM 成为连接原始数据特征和检查记录与备注中专家见解的桥梁,有效提高了诊断的准确性。
C. 行业案例研究
作者选取水电发电机组作为行业案例,旨在深入探索并验证所提出方法的应用效果与实际可行性。水电发电机组作为关键的工业设备,其故障诊断对于确保设备稳定运行和延长使用寿命具有重要意义。通过该案例,研究展示了如何将大型语言模型(LLMs)与工业文本数据和领域知识相结合,以提升故障检测和诊断的准确性。具体而言,研究团队首先收集了水电发电机组的多模态数据,包括视觉检查照片、局部放电测量值(如相位解析局部放电和局部放电分析仪的数据)、温度以及臭氧读数等。这些数据被用于训练一个诊断模型,以处理和分类这些多模态数据输入,如图2所示。
在此基础上,研究进一步引入了LLMs来处理工业文本数据和领域知识,如技术人员的工作记录(如图3和图4所示)和视觉检查照片(如图5所示)。
为了将文本数据有效地融入诊断模型,作者对文本数据进行了细致的预处理,包括特殊字符管理、编码问题解决以及语言特定要求的处理。特别是针对非英语(如法语)文本的挑战,研究采用了专门的预处理管道,包括使用能够处理特殊字符的分词器、进行字符集规范化以及应用双语嵌入等。通过这一系列的处理步骤,作者成功地将LLMs集成到了现有的条件监测系统中,从而提升了诊断模型的准确性。实验结果表明,融入LLMs后的模型能够更有效地利用工业文本数据和领域知识,为水电发电机组的故障诊断提供了更为精确和全面的支持。这一发现不仅验证了所提出方法的有效性,也为其他工业领域的故障诊断提供了新的思路和方法。
04.实验
为评估所提方法的性能而进行的消融实验,也用于将所提出的方法与其他方法进行比较。该方法包含3个主要部分:基于LLM的文本嵌入、基于领域知识的嵌入模型微调和特征融合的文本输入方式(直接输入或根据注意力加权输入)。这些实验包括小型 Word2Vec 类嵌入模型(FrWac2Vec)与大型 Gpt2 的比较、微调与非微调、直接输入模式与注意力加权输入模式的比较。
A.实验设计
作者先是设计两个基础模型。设计实验一为无文本输入,修改现有诊断模型的输出层,以执行针对退化水平的回归任务。这种不使用任何文本数据的设置可作为初始的基础模型。目的是将先前开发的诊断模型的输出从分类调整为回归输出,旨在预测数值退化水平。这种修改只涉及重新训练模型的最终输出层,而早期的特征提取和融合层(如图2所示)保持不变,以利用已经实现的学习。这些层有效地包含了先前分类和当前退化评估所依据的观察结果。因此,只有新引入的回归层使用技术人员分配的退化值作为目标结果进行训练。这一初步实验为仅使用检查期间收集的定量数据(不包括技术人员的任何文本注释)估计退化强度设计了基础。实验一的详细设置,包括冻结现有层和添加新的回归层,如图7所示。
设计实验二为FrWac2Vec(文本)+无微调+直接输入,使用基本嵌入模型嵌入文本数据(技术人员的备注),并将其作为附加输入添加。在这种情况下,仅使用技术人员的注释,不包括其他文本数据(例如技术人员指南),形成第二条基础模型。
后续的实验三到五在实验二的基础上进行设计,实验三将直接输入修改为注意力加权输入,实验四将无微调修改为有微调,实验五将无微调修改为有微调并且将直接输入修改为注意力加权输入。实验六到八则是将实验二到四的小型模型FrWac2Vec替换为大型 Gpt2 。
作者所提出的方法设计实验九为Gpt 2+微调+注意权重输入,在文档上微调的LLM用于嵌入检查注释,然后对其他输入进行加权。以上设计的各实验可见图8所示。
B.实验实施
这些模型均在3800个样本的训练集上进行训练,并在962个样本上进行测试。该数据集由多模态样本组成,其中每个实例都是通过将三年时间窗口内从机器上获取的测量结果分组在一起而创建的,该窗口基于退化速度的领域知识。在此窗口中,每个目视检查图像都有一个相关的文本,等于数据集中文本和图像条目的数量。然而,这并不表示包含有用信息的文本条目的数量,因为检查注释的信息量可能会有所不同。其他数据模态不具有对应的检查注释,但是由于与图像的分组而与注释相关联。基础数据集的构建见Jose等人(2023),在此基础上增加了文本数据,从而创建了本研究的数据集。
C.结果对比
如图9所示了九个实验模型在 500 个测试样本中的表现。它由十条线图组成,代表了各消融模型之间的性能差异。绿线(代表作者所提模型的预测值)与黑线(代表实际数据)之间的惊人吻合强调了所提方法令人印象深刻的准确性。它有力地证明了模型的有效性,并与现有最可靠的基本事实(即人类专家评估)相一致。
测试集的结果汇总在表1中,表1显示了九种实验在估计健康指数(数值范围从0到100)方面的性能,平均绝对误差(MAE)是该范围的合适指标。在不使用文本的情况下估计HI的初始尝试导致平均绝对误差为44.2,表明基础模型的效用有限。由测试集的结果来说,使用大型语言模型嵌入文本数据可以显着提高性能,微调嵌入模型也可以提升模型,使用嵌入文本对其他数据特征进行注意力加权会产生更好的结果。事实上,通过将检查笔记和备注与经过领域知识微调的 LLM 相结合,作者所提出的方法不仅强调了将专家知识纳入预测模型的重要性,而且还展示了其将误差范围最小化的能力,将误差显著降低至4.2。
总结
该研究特别关注于LLMs能否协助将专家领域知识(通常包含在行业特定指南、专有文档和其他长格式文本数据中)整合到数据驱动的PHM中。研究提出了一个新方法,即利用LLMs从检查数据评估机器退化水平,探索了将短文本检查记录与备注整合到模型中以计算机器退化水平,以及通过LLM适应技术将领域知识融入此模型的好处。此外,研究还通过水电发电机组的案例研究证明了该方法的可行性和价值,并进行了详细的消融实验,比较了使用文本数据检查记录与备注作为附加条件监测源与作为物理根源监测测量的加权机制之间的性能价值,为故障检测与诊断领域带来了新的视角和可能性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。