Deep reinforcement learning for portfolio selection --- 论文阅读笔记

创新点

这篇文章的创新之处在于提出了一种先进的无模型深度强化学习框架,以构建在动态、复杂和高维金融市场中的最优投资组合策略。本研究结合了投资者的风险厌恶态度和交易成本约束,将其嵌入到扩展的马科维茨均值-方差收益函数中,利用双延迟深度确定性策略梯度(Twin-Delayed Deep Deterministic Policy Gradient, TD3)算法来设计一种对风险和交易成本敏感的投资组合。

  • 在传统的模型驱动(model-based)方法中,需要对系统的运作有一个精确的数学描述,比如知道如果采取某个动作会导致什么样的状态变化,以及这种变化带来的奖励是多少。但在无模型(model-free)的方法中,算法并不依赖于这样的先验知识,它直接从尝试中学习,通过不断地试错来发现哪些动作在特定状态下可以获得最大的累积奖励。这样,算法就能够适应那些其初始并不完全理解的环境。

目标函数

本文中的目标函数就是奖励(reward)函数,它结合了投资组合价值的变化、交易成本以及风险成本。
具体公式为:
r t = p t T m t − β σ t 2 − ξ p t T ∣ k t ∣ r_t = p_t^T m_t - \beta \sigma^2_t - \xi p_t^T |k_t| rt=ptTmtβσt2ξptTkt

  1. 组合价值 p t T m t p_{t}^{T} m_{t} ptTmt

    • 在论文中, p t T m t p_{t}^{T} m_{t} ptTmt表示的是在时间 t 时投资组合价值的变动。这里的 p t p_{t} pt是一个向量,表示在各资产的价格,而 m t m_t mt也是一个向量,表示在时间 t 各资产的价格。
  2. 交易成本 c tran , t = ξ × p t T ∣ k t ∣ c_{\text{tran},t} = \xi \times p_{t}^{T} |k_{t}| ctran,t=ξ×ptTkt

    • 交易成本是在每次执行交易活动时产生的费用,它与交易的具体行为有关,包括买入、卖出或持有资产。本文的交易成本通过一个正常数 ξ 来表征,这个常数代表了发起新交易时的交易成本率。 p t T p_{t}^{T} ptT是资产价格向量,表示各个资产在时间t的价格,由于k表示的是买入和卖出的净值数量,有正有负,所以在整体的交易成本计算时要加绝对值,记作 ∣ k t ∣ |k_{t}| kt
  3. 风险成本 c risk , t = β σ t 2 c_{\text{risk},t} =β \sigma^2_t crisk,t=βσt2

    • 在论文中,扩展的马科维茨均值-方差收益函数是用于描述投资组合选择模型的一部分。引入收益函数使得该模型在优化投资组合分配的同时,考虑投资者的风险厌恶程度和交易成本。
    • 马科维茨的投资组合理论
      这里的风险指的是投资回报的波动性(不确定性),马科维茨理论认为,投资者在进行投资决策时,需要在收益和风险之间进行权衡。通常,较高的预期收益伴随着较高的风险。投资组合的风险不仅仅取决于单个资产的风险,还取决于各资产之间的相关性。通过将资产组合在一起,可以利用资产之间的相关性来降低整体风险(即通过分散投资来减小风险)。
      风险方差的计算 σ t 2 = 1 t ∑ i = 1 t ( P i − P i − 1 P i − 1 − μ t ) 2 \sigma^2_t = \frac{1}{t} \sum_{i=1}^{t} \left( \frac{P_i - P_{i-1}}{P_{i-1}} - \mu_t \right)^2 σt2=t1i=1t(Pi1PiPi1μt)2 ,其中 P i − P i − 1 P i − 1 \frac{P_i - P_{i-1}}{P_{i-1}} Pi1PiPi1表示的是每天的收益率, μ t \mu_t μt过去t个时期的平均回报率。
      引入系数β来反映投资者的风险厌恶程度。为了建模投资者对潜在投资组合风险的态度,在目标函数中引入风险成本: c risk , t = β σ t 2 c_{\text{risk},t} =β \sigma^2_t crisk,t=βσt2

TD3-based algorithm

在这里插入图片描述
图1展示了基于TD3的组合交易框架,该框架旨在制定一种能够在动态环境中最大化投资组合回报 r t r_t rt 的组合交易策略。agent收集市场状态 s t s_t st 以训练学习模型,投资者的风险意识行为和交易成本通过奖励函数输入到模型中,并包含在训练步骤中。选择一个投资组合行动 a t a_t at(即买入、卖出或持有),以最大化Q值函数。

  • 状态 s t s_t st s t s_t st为在时间 t 的市场状态,包括但不限于资产的价格、投资者持有的资产的份额、投资者的资金和市场的其他相关信息(例如市场指数、波动率等)。
  • 动作 a t a_t at a t a_t at为在时间 t 时agent执行的动作,包括买入,卖出和持有三个动作。输出的 a t a_t at应该是一个向量,指示每种资产的具体交易量,如买入or卖出多少份额。
  • 奖励 r t r_t rt 本文将风险和交易成本这两个考察变量加入到reward函数中,详见“目标函数”。

实验与参数

本文在Dow Jones Industrial Average(DJIA,道琼斯工业平均指数)的30只股票和S&P100指数的100只股票上进行了实验研究。研究使用了从2010年4月1日至2023年3月9日的历史每日收盘价数据来进行模型训练、验证和测试。采用了几种基于深度强化学习(DRL)的方法,包括TD3、PPO和DDPG,并将它们与传统的最大夏普比率(Max-Sharpe)和最小方差(MV)策略进行了对比。研究结果显示,在高维度设定下,基于DRL的方法在累积回报表现上优于传统的Max-Sharpe和MV策略。特别是,TD3为基础的两种投资组合方法在高维度环境中实现了最高的年度回报率和夏普比率。

  • ξ交易成本率
    实验结果显示,在不同的交易成本率下,投资组合的表现会有所变化。当ξ(交易成本率)较低时,如0.01%,投资组合能够实现更高的年化收益率和累积回报率,同时保持较好的夏普比率(Sharpe Ratio)和卡玛比率(Calmar Ratio)。随着ξ的增加,比如从0.01%增加到0.5%,投资组合的收益和市场表现指标均有所下降。这是因为较高的交易成本促使投资者减少交易活动,从而导致投资组合的回报降低。

  • β风险厌恶系数
    研究中对风险厌恶系数β进行了实验,以评估其对基于RTC-CNN-TD3算法的投资组合表现的影响。当β值较低时(例如0.0005),投资组合表现出了较高的年度回报率和累积回报率,但是伴随着较高的年度波动率和较大的最大回撤。随着β值逐渐增大,投资组合的年度回报率、累积回报率以及波动率和最大回撤都有所下降。当β值处于中间水平时(例如0.005),投资组合表现出了较好的综合性能,不仅年度回报率和累积回报率仍然维持在较高水平(分别为36.92%和83.09%),而且夏普比率(1.39)和卡玛比率(2.32)也都表现出色。这表明在β值为0.005时,该投资策略在风险调整后的收益和管理最大回撤方面取得了较好的平衡。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值