本期荐读论文:
A Contrastive Representation Domain Adaptation Method for Industrial Time-Series Cross-Domain Prediction
本期推文的内容概要
本期推文将介绍一种对比时序预测自适应方法(Contrastive Temporal Prediction Adaptation, CTPA)。这项研究发表于《IEEE Transactions on Industrial Informatics》期刊。
工业时间序列预测对于工业物联网至关重要。由于现代工业的复杂性和变化性,针对变化数据的知识迁移已成为一个备受关注的研究领域。然而,传统方法可能忽视同一领域内的分布及其相互信息,导致语义对齐错误和与预测相关信息的丧失。为了解决这些问题,荐读的论文提出了一种基于对比学习的领域自适应方法——对比时序预测自适应,用于工业时间序列的跨领域预测。该方法利用对比领域泛化和对比自监督对齐方法,获得稳定的表示,并捕捉数据分布与标签之间的关系,使得具有相似标签的样本在特征空间中更加接近。此外,开发了一种基于实例的对抗性判别方法,通过利用数据分布来减少无关信息的干扰。通过在CMAPSS数据集上的实验验证了所提方法的性能。结果表明,该方法优于现有的其他方法。
论文的创新点主要有以下几点:
1)为了约束源模型,防止其在标签空间中耦合,提出了一种监督式对比域泛化方法。该方法旨在捕捉并最大化潜在表示与标签之间的互信息,确保潜在表示在特征空间中按标签的顺序分布。此约束保留了任务特定的信息,并使源域的表示更加稳定。;
2)提出了一种对比自监督对齐方法用于域适应(Domain Adaptation ,DA)。通过这种方法,潜在表示可以遵循相似的分布模式,从而实现域的语义对齐。随后,目标域数据的伪标签被用来定义伪对比域泛化损失,使得源域中学到的潜在表示与标签之间的关联被迁移到目标域,从而提高模型在目标域中的适应性能;
3)提出了一种逐实例对抗判别方法,用于优化对抗判别模块,使模型能够专注于回归任务的局部信息。
问题的背景
工业物联网(IIoT)正在通过先进的信息技术引领现代工业的变革,其中,基于数据驱动的人工智能方法不断分析大量工业数据,为决策提供有价值的指导。在IIoT中,大多数数据为时间序列数据(如传感器信号),因此,时间序列预测在多个应用中,如预测性维护、产品生命周期管理和智能电网,扮演着至关重要的角色。随着信息技术(如大数据和神经网络)广泛应用于工业领域,时间序列预测方法得到了迅速发展。
然而,传统的时间序列预测方法通常依赖大量高质量的标注数据,并假设实际监测数据与历史数据具有相同的分布。实际上,这一假设并不总是成立。工业数据标注不仅成本高且复杂,同时,现代工业的灵活性和工作条件的动态变化也导致了数据分布的变化,出现了所谓的分布偏移。这使得大多数方法无法有效应对动态变化的工作条件和标注数据的不足。因此,新的方法变得愈加重要,以提高工业应用中的预测准确性和鲁棒性。
为了应对这些挑战,研究人员将注意力转向了域适应(Domain Adaptation ,DA)方法,作为一种自监督的迁移学习技术,DA旨在捕捉不同数据域之间的领域不变性,促进领域知识的迁移。DA的一个显著优点是能够在没有标注目标数据的情况下进行预训练模型的微调,使其能够适应目标领域的分析任务。尽管DA在跨域时间序列分析中取得了显著成果,但现有方法大多集中在分类任务上,在回归任务中的应用仍面临一些挑战。主要问题包括:
-
数据分布偏移问题:传统方法假设实际监测数据与历史数据的分布一致,但在现实工业环境中,监测数据的分布往往会发生动态变化,导致所谓的“分布偏移”。这种变化使得传统方法难以适应新的工作条件,影响模型的准确性。;
-
标签趋势变化的忽视:许多现有的域适应(DA)方法主要关注数据分布的对齐,但忽视了标签变化的趋势。即使样本在特征空间上对齐,标签的变化趋势可能没有被有效捕捉,导致模型无法准确反映目标域的数据分布,影响预测的可靠性;
-
标签耦合问题:一些传统DA方法缺乏对潜在表示的约束,可能导致“标签耦合”现象,即标签差异较大的样本在特征空间中被映射到相似的表示。这种耦合关系使得知识迁移过程中失去了标签间的区分度,导致目标域的适应性较差,进而影响模型的泛化能力;
-
忽视特征空间分布和相互信息:许多现有的DA方法侧重于源域和目标域的表示对齐,往往忽略了在特征空间中数据的分布以及潜在特征之间的相互信息。这种忽视可能导致迁移后的语义不一致,进而影响模型在目标域中的预测效果;
-
过度依赖标注数据:传统方法通常需要大量高质量的标注数据,而在工业实践中,标注数据往往难以获取,且成本较高。现代工业的灵活性和动态变化要求方法能有效处理不完全标注的数据和新的工作环境,这对传统方法提出了挑战。
针对这些挑战,荐读的论文提出了一种基于对比学习的域适应方法——对比时间序列预测适应(CTPA)。该方法假设标签的相关性与特征的相关性成正比,确保标签相似的样本在特征空间中彼此靠近,而标签差异较大的样本则远离,从而实现更有效的跨域知识迁移。
方法的概述
所提出的CTPA方法能够将从一个条件(有标签的源域)学到的知识转移到另一个条件(无标签的目标域)。这种方法允许在源数据和目标数据之间发现相关性和域不变表示,同时保持每个域的固有结构。图1展示了CTPA的整体框架。CTPA的神经网络架构包括一个编码器、一个预测器、一个映射模块和一个对抗判别器。源模型通过使用有标签的源域数据进行监督预训练。预训练损失函数包括预测损失和对比域泛化损失。然后,预训练好的模型被转移到目标域,并将目标模型初始化为源模型。接下来,模型通过对比自监督对齐损失、伪域泛化损失和实例级对抗损失进行微调,从而获得一个可以在目标域进行预测的模型。
图1 CTPA-based工业时间序列预测方法的整体框架。图中的蓝色框表示在源域中的模型训练和域泛化;黄色框表示在目标域中的模型自监督域对齐;橙色框表示完成训练后的目标域模型。
(1)带有等变注意力的源域和目标域编码器
自注意力机制通过计算样本内各位置之间特征的加权和,提取特征间的相关性。它因此能够捕捉样本内的长期依赖关系。其高性能已经在各种任务中得到验证。标准自注意力机制可以表示为:
其中,Attn表示注意力矩阵,Q = XWQ,K = XWK,V = XWV分别是查询、键和值张量,Norm表示归一化过程,通常是softmax。
然而,标准自注意力机制的复杂度是二次的,这导致其收敛速度较慢,严重影响计算效率。此外,在领域自适应(DA)任务中,由于网络是通过多任务学习进行训练的,这种较低的收敛效率可能导致不同任务的学习进度差异较大,从而引发过拟合或欠拟合问题。另外,自注意力机制忽略了不同样本之间的潜在相关性,这可能会导致忽视样本在特征空间中的分布。同时,在自然语言处理(NLP)领域,注意力机制被提出时,嵌入的词向量具有独特的语义,并需要对数据中每一对元素之间的相关性进行细粒度分析。而工业时间序列数据的信息密度较低,样本内部的信息大多数呈现为局部或周期性形式,这表明时间序列预测任务可能不需要完整的注意力映射。
图2 等变注意力的结构。 (a) 等变注意力。 (b) 多头等变注意力。
受到一些自注意力变体(如外部注意力)的启发,荐读的论文提出了等变注意力机制,以减少计算复杂度并提取样本之间的等变相关性,如图2(a)所示。该方法利用输入无关的可学习外部模块作为整个训练数据集的记忆,来提取样本间的相关性。通过一步步的1-D卷积,进一步放松了注意力的计算粒度,并计算序列中每个元素与每一部分的相关性。等变注意力可以表示为:
其中,ConvK 和 ConvV 是卷积操作,AttnEq 是等变注意力的注意力矩阵。
类似于自注意力机制,CTPA方法中也采用了多头注意力机制来捕捉标记之间的各种关系并提升网络性能。该方法使用共享的卷积核 Mk 和 Mv,使得所有标记能够相互作用,这不仅提高了最终的性能,还减少了参数数量和计算量,如图2所示,计算公式如下:
其中,hi表示第i个头,H是头的数量,WO是线性投影。ConvK和ConvV是共享的卷积核。用于特征提取的编码器由多个等变注意力层和多层感知机(MLP)堆叠而成。该网络中还采用了残差连接。
(2)预测器
由堆叠了等变注意力机制的编码器提取的特征为 h = E(X)。预测器 P 是一个多层感知机,它将隐藏特征映射到最终的预测标签。预测器和特征提取器是通过端到端的方式同时训练的,使用均方误差(mse)作为损失函数,表达式如下:
其中,n 是样本的数量,ŷ = R(E(X)) 是预测标签,y 是真实标签。
总结与思考
荐读的论文提出了一种用于工业时间序列预测的新型领域自适应方法(CTPA)。该方法捕捉了数据的领域不变特征以及特征之间的互信息,同时保留了与预测任务相关的信息。所提出的CTPA框架基于对比学习,包括预训练阶段的对比领域泛化和领域对齐阶段的对比自监督对齐。此外,还应用了实例加权策略来优化传统领域对抗网络中的对抗判别模块。通过广泛的实验验证了所提出的CTPA方法的有效性。特别是,通过与四种最先进方法的对比实验,展示了方法的优越性。此外,通过消融实验证明了CTPA方法中每个组件的有效性。
然而,作者指出,实际应用中用于模型训练的数据可能是异质的,甚至是不可访问的。在未来的研究中,将探讨在源数据和目标数据异质或不可访问的情况下的领域自适应方法。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。