一、核心思路
以汽轮发电机组为研究对象,对汽轮发电机组故障领域知识进行分析,构建汽轮发电机组故障诊断知识图谱,并提出一种融合多头自注意力机制与BERT-BiLSTM-CRF 的汽轮发电机组故障诊断命名实体识别模型和融合对抗训练的端到端故障实体关系抽取模型,设计开发汽轮发电机组故障诊断知识图谱管理系统
根据汽轮发电机组故障案例公开资料,构建了汽轮发电机组故障诊断命名实体识别标注语料数据集,提出了一种融合多头自注意力机制与 BERT-BiLSTM-CRF 的命名实体识别方法。输入的标注语句在 BERT 层进行预训练,将其转换成字向量序列;将字向量序列输入到 BiLSTM-MHA 中间层,提取文本长距离依赖信息和全局语义特征信息;将中间层的输出向量进行拼接作为 CRF 层的输入向量,获取文本的全局最优序列;CRF 层作为解码层输出识别结果。
二、求解过程与代码
Neo4j 图数据库是一个基于“图论”实现的高性能 NoSQL 图数据库,是目前应用最为广泛的图数据库。本课题主要用 Neo4j 图数据库来储存故障诊断知识图谱数据,在 Neo4j 图数据库中,故障诊断知识数据以节点和关系的形式构成一个图结构并在此结构上实现数据库的增、删、改、查、事务等关系型数据库所拥有的所有特性示。
Neo4j 提供了一个集成的 Web 界面进行查询,Neo4j 在数据模型图中使用 D3.js 进行数据可视化,它以非常直观的方式显示数据模型中的节点和关系。Cypher 是一种富有表现力的声明式图查询语言,在地位和意义上与关系型数据库中的 SQL 语言(Structured Query Language, 结构化查询语言)相似,它具有高度的可扩展性,允许用户定制他们的查询,而且还可以支持完整的 ACID 事务,以确保在硬件失效或系统崩溃时,不会丢失数据。
故障标识
模型结构
LSTM 网络结构图
对于每一个实例句子,BiLSTM 可以双向捕捉上下文语义信息,分别得到前向和后向的输出向量h和h,将两个结果向量进行拼接,得到t时刻 BiLSTM 的输出序列h= h,h。其 BiLSTM 工作原理如图 3.7 所示。例如,汽轮发电机组故障语句“故障是转子不对中”,前向 LSTM 依次输入“故障”,“是”,“转子不对中”,得到三个向量{hlo, h1, hl2?,后向 LSTM 依次输入“转子不对中”“是”,“故障”,得到三个向量{hRo, hR, hR23,最后将前向和后向的向量进行结合得到{[hLo,hR2],[hL, hRi],[hL2, hRo]了,即ho,h1, h2}。
实验优化结果
博主简介:本人擅长数据处理、建模仿真、程序设计、论文写作与指导,项目与课题经验交流。
个人博客:kelaboshi.com。