【论文阅读】Meta contrastive label correction for financial time series

最新推荐文章于 2024-09-27 15:56:17 发布

小码过河ml

最新推荐文章于 2024-09-27 15:56:17 发布

阅读量132

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/mataolc/article/details/131277399

版权

1.简介

股票趋势预测是一种通过对股票价格历史数据进行分析来预测未来股票价格走势的方法，价格走势通常会被分为三个类别：上涨、下跌和横盘。但是股票价格趋势预测通常面临这样一个问题：在预定义的标签规则下，很难准确地预测股票走势的方向。这是因为传统的标记方法，例如采用三重障碍法，通常会提供不准确甚至是有害的标签。为了解决这个问题，本文的方法能够自动为嘈杂的时间序列模式生成正确的标签，同时该方法能够提高此新标记数据集上的分类性能。基于上述目标，本文的方法具有以下三个创新点：首先，将一种新的对比学习算法融合到元学习框架中，在更新分类模型时迭代地估计正确的标签。此外，利用通过Gramian角场和代表性学习从时间序列数据生成的图像。最重要的是采用多任务学习来预测时变标签。
结果表明，与基准相比，本文的方法具有竞争力并且表现更好，预测准确率提高20%，F1 Score提高了100%。

如何根据数据本身自动标记数据是非常值得探索的。基于此，本文提出了一个MCLC（meta Constrastive Label Correction）学习框架对未标记的数据进行自动标记，并利用元学习算法进行标签准确性优化，提高后续分类模型的性能。MCLC可以分为四个部分：数据处理、标签生成器、标签校正器的元学习、按股票类型的多任务学习。

2. 本文方法

2.1 数据预处理

通常股票趋势预测会直接将历史价格数据作为训练样本X，后续一段时间的股票价格涨跌作为对应的标签Y。但是单变量时间序列很难反映数据之间潜在的共性和特征。本文X和Y分别进行了预处理，将其转换为图像。
对X使用GASF方法进行转换为图像，具体包括下面3个步骤：

通过窗口滑动将原始时间序列拆分为多个片段。
用分段聚合近似方法对原始时间序列中的子序列进行预处理，以清除数据中的噪声，并用Min-MaxScaler方法将数据映射到[0,1]。
通过GASF方法将序列转换为图像。

2.2 标签生成器

MCLC们需要两个神经网络，分别负责基于Y的图像信息进行标记和基于X的图像信息进行分类。从大量的嘈杂金融数据中选择干净数据是一项复杂的任务。本文采用手动标注方法来帮助我们选择少量干净数据。手动标注方法被选择为三重障碍方法，在获取到三重障碍方法的标签之后，我分别观察不同类别的图像数据的模式。然后使用通过模式得到的图像来计算与同一类别的相似度。最后选择具有最高相似度的前100个图像作为干净数据(𝒟_𝑐𝑙𝑒𝑎𝑛)。

2.3 基于元学习的标签校准器

在这里插入图片描述
如上图所示，MCLC方法通过少量的有标记数据来生成和修正标签。首先，将无噪声的预处理数据输入到元模型中，生成无监督策略下的标签。然后，使用三元组正则化损失函数进行标签生成器的预训练，并使用交叉熵损失函数对分类器进行更新。接着，使用生成的标签来纠正主模型。内部循环中优化主模型参数，外部循环中优化元学习器参数，以实现互相博弈。该模型不仅可以自动标记基于时间序列图像信息，还能通过干净数据将信息馈送回元模型，从而帮助更新元学习器。