【文献阅读】DeepTrader-CSDN博客

本文链接：https://blog.csdn.net/weixin_41960890/article/details/121578372

本文介绍了一种名为DeepTrader的深度强化学习模型，它通过AssetScoringUnit捕捉股票间关联，MarketscoringUnit动态平衡风险与市场，优化了投资决策。实验结果显示，DeepTrader在面对金融事件如次贷危机时表现优异，且关键组件有效提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DeepTrader

原文链接

1 解决了什么问题？

目前现有的DRL方法所存在以下缺陷：

没有考虑 股票之间的内在联系和相互作用。比如一个股票的浮动可能对其一系列相关股票的增长趋势有较强的关联。
DRL方法经常 忽视了市场条件（比如股票指数和股票涨跌的数量），而只是将输入的金融信号独立于市场的其他部分进行处理，导致在风险-收益的平衡上处理有限。

虽然2019年的 AlphaStock 引入了 cross-asset-attention-network 来计算股票之间的相似性，但其使用的计算方法是 基于局部区域的输入序列 上的，因此可能会忽视股票之间长时间跨度内的相互关系。

本文作者为解决以上缺陷入手，提出 DeepTrader。

2 DeepTrader模型框架

如下图所示，DeepTrader主要由三个部分组成：

Asset scoring unit。输入为股票指数 $X^{a}_{t}$ 和构建的图结构 $A$ ，输出为赢家得分 $v_{t}$ 。
Market scoring unit。输入为市场标准 $X^{m}_{t}$ ，输出一个高斯分布 $\tilde{\rho}$ 的参数（均值和方差）。
Portfolio generator。输入为赢家得分 $v_{t}$ 和高斯分布 $\tilde{\rho}$ ，输出为做空总资产比例 $\rho_{t}$ 和投资组合 $\omega_{t}^{+}$ 和 $\omega_{t}^{-}$ 。

在这里插入图片描述

2.1 Asset Scoring Unit

该单元由 $L$ 个带有残差连接的 Spatial-TCN 块堆叠而成。Spatial-TCN 块主要由三部分组成：时间卷积层（Temporal convolution layer）、空间注意力机制（Spatial attention mechanism）和 图卷积层（Graph convolution layer）。

2.1.1 时间卷积层

该层使用 TCN 来完成 股票时间特征的提取（在AlphaStock中是使用LSTM-HA完成的功能，这里进一步优化了）。相比于 RNN/LSTM 类的方法，使用 TCN 的优势在于 能够简化并行计算，减轻梯度爆炸和梯度消失的问题。

RNN 在内部设计上存在一个严重的问题：由于网络一次只能处理一个时间步长，后一步必须等前一步处理完才能进行运算。这意味着 RNN 不能像 CNN 那样进行大规模并行处理，特别是在 RNN/LSTM 对文本进行双向处理时。这也意味着 RNN 极度地计算密集，因为在整个任务运行完成之前，必须保存所有的中间结果。

CNN 在处理图像时，将图像看作一个二维的“块”（ $m * n$ 的矩阵）。迁移到时间序列上，就可以将序列看作一个一维对象（ $1 * n$ 的向量）。通过多层网络结构，可以获得足够大的感受野。这种做法会让 CNN 非常深，但是得益于大规模并行处理的优势，无论网络多深，都可以进行并行处理，节省大量时间。这就是 TCN 的基本思想。

TCN 是对 CNN 的改进：

适用序列模型：因果卷积（Causal Convolution）
记忆历史：空洞卷积/膨胀卷积（Dilated Convolution），残差模块（Residual block）

TCN 相关内容参考：https://zhuanlan.zhihu.com/p/69919158

输入内容：第 $l$ 个块的输入，本文记为 $H^{l-1}$ ，它的维度为 $R^{C×N×K_{l-1}}$ 。其中 $C$ 为隐藏层特征的维数， $N$ 是股票的数量， $K_{l-1}$ 是第 $l - 1$ 个块的时间长度。

输出内容： $\hat{H}^{l}∈R^{C×N×K_{l}}$ ，该结果为提取出的股票时间特征。

2.1.2 空间注意力机制

为了对股票的 短期空间属性 的建模，本文使用注意力机制来适应性地搜索股票之间的相关性。

输入内容： $\hat{H}^{l}∈R^{C×N×K_{l}}$ ，即 TCN 的输出。

输出内容： $S^{l}∈R^{N×N}$ ，即股票之间短期的相关性。

计算公式：
$\hat{S}^{l} = V_{s}\cdot sigmod((\hat{H^l}W_{1})W_{2}(W_{3}\hat{H^l}^{T(1,2)})^{T}+b_{s})$
其中， $W_{1}∈R^{K_{l}} ,W_{2}∈R^{C×K_{l}}, W{3}∈R^{C}, V_{s}∈R^{N×N}$ 都是参数， $b_{s}∈R^{N×N}$ 为bias， $T (1, 2)$ 为前两个维度的转置。

然后，再把 $S^{l}$ 中的每个元素都归一化，得到股票之间的相关性系数：
$S_{ij}^{l} = \frac{exp(\hat{S}_{ij}^{l})}{\sum_{v=1}^{N}exp(\hat{S}_{iv}^{l})}$

2.1.3 图卷积层

虽然个股的表现具有不断变化的波动性，但行业的整体表现往往能更好地反映未来经济趋势和社会热点趋势。这块算是本文的创新点之一。本文使用图卷积层来对 股票间的长期空间关系，以更好地指导决策，GCNs 通过 消息传递 来获得图中 节点的依赖关系，从而将边缘和邻域信息集成到图的状态表示中。

本文作者考虑了以下四种方式去表征股票之间的相互关系：

股票行业类别
股票的收益相关性
股票的收益偏相关性
因果关系（使用 PC 算法确定股票之间的因果结构）

输入内容： $\hat{H}^{l}∈R^{C×N×K_{l}}$ ，即 TCN 的输出；矩阵 A。

输出内容： $Z^{l}∈R^{N×N}$ ，即股票之间的长期相关系。

由于使用 股票行业分类 构建图结构可能会忽视许多依赖关系。因此，本文使用计算公式如下：
$Z^{l} = \sum_{q=0}^{Q}\tilde{A}^{q}\hat{H}^{l}\Theta_{1,q}+\tilde{A_{c}}\hat{H^{l}}\Theta_{2}$
其中， $\hat{H^{l}}$ 为 TCN 的输出； $\tilde{A}=A/rowsum(A)$ ， $\Theta_1,\Theta_2∈R^{K_l×K_l}$ 为 GCN 中可学习的参数； $\tilde{A_c}$ 用与捕捉它们之间的依赖关系： $\tilde{A_c}:=SoftMax(ReLU(EE^{T}))$ ， $E∈R^{N}$ 是可学习的参数，它被随机初始化，同时使用梯度下降迭代更新。

对于使用 收益相关性、收益偏相关性 和 因果关系 的方式构建图结构，则直接使用下式即可（因为它们之间的依赖关系已经在数据中体现了）：
$Z^{l} = \sum_{q=0}^{Q}\tilde{A}^{q}\hat{H}^{l}\Theta_{1}$

2.1.4 残差连接计算股票赢家得分

输入内容： $Z^{l}∈R^{N×N}$ ，即股票之间的长期相关系、 $S^{l}∈R^{N×N}$ ，即股票之间短期的相关性和 $H^{l-1}$ ，即上一个块的输出。

输出内容： $H^{L}$ ，第 L 个块的输出，作为股票最终的时空特征。

计算公式：
$H^{l}=S^{l}×Z^{l}⊕H^{l-1}$
在这里插入图片描述

最后，输入 $H^{L}$ 到一个全连接层，得到每个股票的赢家得分。
$v = sigmoid(W_{l}H^{L}+b_L)$

2.2 Market scoring unit

由于随机赌博和突发事件，金融数据包含大量不可预测的不确定性。根据历史观察来准确判断股票的涨跌是不可行的。在以往基于 RL 的投资模型中，投资策略仅仅是基于对每只股票的分析，而 忽略了市场的变化。而顺应市场是一个更好的投资策略。当股市下跌时，有经验的投资者倾向于在卖空上花更多的钱。为了平衡收益和风险，本文提出了市场评分单元。以 市场情绪指数 为输入，动态调整做空资金的占比。

本文使用 LSTM + attention 来提取输入数据的序列化表示。计算过程如下：
$h_k=LSTM(h_{k-1},x^{m}_{k})$
其中， $h_k$ 为第 k 步的状态编码。把 LSTM 的最终输出 $h_K$ 作为全局表示。然后，使用 attention 加权来捕获早期的信息关系。
$e_k=V_e^{T}tanh(U_1[h_k;h_K]+U_2x_k^{m})$

$\alpha_{k}=\frac{exp(e_k)}{\sum_{i=1}^{K}exp(e_i)}$

其中， $V_e∈R^C$ ， $U_1∈R^{C×2C}$ ， $U_2∈R^{C×C}$ 均为模型可学习的参数。最后重新计算 $h_K$ 记为 $\hat{h_K}$ 。
$\hat{h_K}=\sum^{K}_{k=1}\alpha_k\cdot h_k$
进一步计算出正态分布的均值和方差。
$\mu,\sigma = U_m\cdot\hat{h_K}+b_m$
输入内容： $X^{m}$

输出内容： $\mu,\sigma$

2.3 Portfolio generator

本文的前半部分跟 AlphaStock 一样，选取前 G 只股票做多，后 G 只股票做空，分配股票占比计算如下：
$\omega_{i}^{+}=\left\{\begin{array}{l} \frac{\exp \left(\boldsymbol{v}_{i}\right)}{\sum_{j \in \mathcal{V}^{+}} \exp \left(\boldsymbol{v}_{j}\right)} &i \in \mathcal{V}^{+} \\ 0 & i \notin \mathcal{V}^{-} \end{array} \quad \omega_{i}^{-}=\left\{\begin{array}{ll} \frac{\exp \left(1-\boldsymbol{v}_{i}\right)}{\sum_{j \in \mathcal{V}^{-}} \exp \left(1-\boldsymbol{v}_{j}\right)} & i \in \mathcal{V}^{-} \\ 0 & i \notin \mathcal{V}^{-} \end{array}\right.\right.$
后半部分则是结合了市场情况，通过正态分布动态地调整做空资产的占比 $\rho$ ，是本文的创新点之一。这个过程可以视为在连续状态空间 $A^m∈[0,1]$ 中选择一个值。在训练过程中，该值 $\rho$ 根据正态分布 $N(\mu,\sigma^2)$ 进行采样得来；在测试过程中，使用均值 $\mu$ 作为 $\rho$ 的取值。

以上流程完成后，按照交易流程中规定的流程完成交易周期。

2.4 Optimization via Reinforcement Learning

本文使用 policy gradient 来优化策略，策略 $\pi(a|X^a,X^m;\theta)$ 由两部分组成：

在 asset scoring un it 中的 决定股票组合占比的策略 $\pi^{a}(i|X^a;\theta^a)$
在 market scoring unit 中的 做空股票的占比选择 $\pi^m(\tilde{\rho}|x^m;\theta^m)$

（1）首先是 股票组合占比的策略：
$\pi^a(i|X^a,\theta^a):=\frac{exp(v_i(\theta^a))}{\sum_{n=1}^{N}exp(v_n(\theta^a))}$
其中， $v_i(\theta^a)$ 是第 i 个 资产得分（asset scoring unit 的输出）。

在第 t 个持有期内的 收益率 为：
$r_t = y_t\cdot\pi^a_{\theta^a}-1$
其中， $y_t = P^{(c)}_{t+1}/P^{(c)}_{t}$ 为 价格增长率。

假设初始资金为 $C_0$ ，则在一个 trajectory $\tau$ 下的**累计资产（+1是本金）**为：
$C_{|\tau|}=C_0\prod_{t=0}^{|\tau|}(r_t+1) =C_0\prod_{t=0}^{|\tau|}y_t\pi_\theta^a$
因此，asset scoring unit 的优化目标为所有的 trajectories 的 对数累计资产最大化：
$\nabla J^{a}(\theta) = \sum_{\tau\sim\pi_0}\sum^{|\tau|}_{t=0}\log(y_t \nabla\pi_\theta^a)$
（2）然后是 做空股票的占比选择，本文使用的是高斯策略：
$\pi^m(\tilde{\rho}|X^m;\theta^m) = \frac{1}{\sqrt{2\pi}\sigma(\theta^m)}exp(-\frac{(\tilde{\rho}-\mu(\theta^m))^2}{2\sigma^2(\theta^m)})$
其中， $\mu(\theta^m)$ 和 $\sigma(\theta^m)$ 均为 market scoring unit 的输出。

给定 reward $R_t$ ，优化目标为：
$\nabla J^{m}\left(\theta_{m}\right)=\sum_{\tau \sim \pi_{\theta}} \sum_{t=0}^{|\tau|} R_{t} \nabla \log \left(\pi_{\theta}^{m}\right)$
把二者 加权求和 就是最终的优化目标：
$\begin{array}{c} \nabla J(\boldsymbol{\theta})=\nabla J^{a}\left(\theta_{a}\right)+\iota \nabla J^{m}\left(\theta_{m}\right) \\ =\sum_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{|\tau|} \log \left(\boldsymbol{y}_{t} \nabla \boldsymbol{\pi}_{\theta}^{a}\right)+\iota \sum_{t=0}^{|\tau|} R_{t} \nabla \log \left(\pi_{\theta}^{m}\right)\right] \end{array}$
其中， $\iota$ 用来控制这两个部分的不同学习速率，这两个部分同时通过梯度上升来进行优化。

3 实验及关键结果

作者进行实验分析，旨在回答以下四个问题：

DeepTrader 的性能表现怎么样？尤其是遇上一些金融事件，如次贷危机等。
DeepTrader 中的几个关键组件是否有存在必要性（是否有效提升性能）？
Market scoring unit 中的奖励函数的设定如何影响投资效果？
GCN 中的图结构是否影响投资效果？

美国次贷危机（subprime crisis）也称次级房贷危机，也译为次债危机。它是指一场发生在美国，因次级抵押贷款机构破产、投资基金被迫关闭、股市剧烈震荡引起的金融风暴。

在2006年之前的5年里，由于美国住房市场持续繁荣，加上前几年美国利率水平较低，美国的次级抵押贷款市场迅速发展。

随着美国住房市场的降温尤其是短期利率的提高，次贷还款利率也大幅上升，购房者的还贷负担大为加重。同时，住房市场的持续降温也使购房者出售住房或者通过抵押住房再融资变得困难。这种局面直接导致 大批次贷的借款人不能按期偿还贷款，银行收回房屋，却卖不到高价，大面积亏损，引发了次贷危机。

3.1 Datasets

数据分别为美国的 Dow Jones Industrial Average(DJIA)，中国香港的 Hang Seng Index(HSI) 和中国A股市场的 CSI 100 Index。

在这里插入图片描述

3.2 Comparative Methods

本文使用了五个对比方法：

Market，简单的购买并持有策略。
BLSW，基于均值回归的策略。
CSM，经典的动量策略。
EIIIE，基于RL的策略。
AlphaStock，基于RL的策略。

同时为了研究 DeepTrader 的关键组件，作者也使用了：

DT，完整的 DeepTrader 模型
DT-NS，在 DeepTrader 中移除了空间注意力机制和图卷积层
DT-NM，在 DeepTrader 中移除了 Market scoring unit

默认情况下使用 MDD（最大回撤）作为 Market scoring unit 的奖励函数；使用 股票的行业类别做为图结构的组织。

3.3 Evaluation Measures

本文使用了6中不同的评价指标，主要分为以下三类：

利润标准。包括 年化收益率（annual Rate of Return, ARR）
风险标准。包括 年化波动率(annual Volatility, AVol) 和 最大回撤(Maximum DrawDown, MDD)（这两者越低越好）
风险-利润标准。包括 年化夏普比率(ASR)、卡尔玛比率(CR)、Sortino比率(SoR)。

3.4 实验结果

所有基于RL的方法均优于传统方法。
DJIA 的回测数据包含了几次著名的金融事件。在回测过程中，DT 的累计财富最大，表现最优。
图2中的DT-NS和DT-NM曲线说明了资产评分单元和市场评分单元在DeepTrader中的作用。资产评分单元使DT-NM在经济复苏过程中比DT-ns和AlphaStock更快地积累财富。DT-nm，去掉了市场评分单元，在遭遇2008年危机时，其跌幅超过DT。通过图3中的ρ值可以进一步证明，市场得分单位动态增加短期资金的比例(多在ρ > 0.5)以应对市场萧条，然后在市场繁荣时降低比例(多在ρ < 0.5)。这说明我们的模型能够很好地平衡风险和收益，并以平稳的方式将财富积累到一个较高的水平。

在这里插入图片描述

在不同的奖励函数的选择上，实验结果如下：
$\begin{array}{lcccccc} \hline \text { Models } & \text { ARR(\%) } & \text { AVol } & \text { ASR } & \text { SoR } & \text { MDD }(\%) & \text { CR } \\ \hline \text { DT-RoR } & \mathbf{1 5 . 6 0} & 0.204 & \mathbf{0 . 7 6 6} & \mathbf{2 . 7 8 8} & 45.52 & 0.343 \\ \text { DT-SR } & 14.36 & 0.205 & 0.700 & 2.498 & 46.06 & 0.312 \\ \text { DT-MDD } & 12.35 & \mathbf{0 . 1 7 2} & 0.718 & 2.782 & \mathbf{2 2 . 6 1} & \mathbf{0 . 5 4 6} \\ \text { DT-CR } & 12.02 & 0.185 & 0.648 & 2.598 & 31.10 & 0.387 \\ \hline \end{array}$