量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

拓端研究室

已于 2023-02-05 13:26:27 修改

阅读量445

点赞数

分类专栏： R语言机器学习文章标签：人工智能

于 2022-08-26 15:46:11 首次发布

本文链接：https://blog.csdn.net/qq_19600291/article/details/126510211

版权

R语言同时被 2 个专栏收录

497 篇文章

订阅专栏

机器学习

233 篇文章

订阅专栏

最近我们被客户要求撰写关于量化交易的研究报告，包括一些图形和统计输出。

计算能力的指数级增长，以及量化社区（日益增长的兴趣使量化基金成为投资者蜂拥而至的最热门领域。

量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

量化交易涵盖了相当广泛的交易策略（从大数据分析到高频交易）。出于本文的目的，我们将重点关注量化分析和数据科学，因为它们被不同类型的交易者广泛使用。

根据我们在量化交易方面的经验，在构建量化交易策略时有几个主要陷阱：

了解统计/概率。
模型实现。
策略回测/模拟。
风险管理。

理解统计和概率

统计分析是数据科学和量化交易的基础。当我们分析数据（尤其是时间序列）时，如果我们对统计/概率（和统计概念）没有很好的理解，我们很容易陷入各种陷阱。

正态分布

到目前为止，正态分布的假设是我们在金融资产动态建模方面所能做出的最弱假设。关于金融资产时间序列的正态性假设已经发表了许多论文，但是，由于缺乏更好的选择，我们使用高斯（正态）分布，因为它使我们能够很容易地分析数据。知道“正态性”的假设是弱的，我们应该以同样的方式对待正态分布的性质（即偏斜收益、肥尾）。假设收益的分布将落在钟形曲线之下，当收益出现 3+ 个标准差时，通常会导致巨大的意外。

正如我们所理解的，“正态性”有时可能是一个弱假设，我们可以使用已实现的分布（采用不同的时间框架）并查看它如何符合正态分布，因此我们可以评估资产的回报分布有多正常.

相关性

如果说大多数量化分析师和交易员喜欢一件事，那就是“相关性”。相关性可能是统计学中使用最多但最容易被误解的概念。我们大多数人使用的相关系数是“Pearson Correlation”（以 Karl Pearson 命名）。相关性，简而言之，描述了两个变量（X，Y）之间的线性关系。相关性在（-1，负线性关系）和（+1，正线性关系）之间振荡。

首先，我们需要了解什么不是相关性。它不是预测变量（即，它不表示因果关系，而是线性关系）。当我们使用相关函数时，我们需要确保我们不会犯以下错误：

分析价格而不是收益（对数收益或实际收益）—— 当我们处理时间序列时，我们通常处理资产价格。资产价格本质上是“非平稳的”。“非平稳”过程基本上意味着资产呈现趋势（或非均值回归过程）。如果我们以黄金现货价格与 10 年国债实际收益率为例，我们可以清楚地看到使用非平稳数据的效果。这是黄金/收益率价格的回归模型拟合结果：

黄金/ 10 年期实际收益率价格回归。R²=0.81 , R=-0.9

然而，这就是价格变化收益率的回归拟合结果（即平稳时间序列）的样子

黄金 (Log Rtn)/10 年实际收益率（价格变化）。R²=0.18, R=-0.43

2.没有过多考虑样本量/频率——当我们分析相关性时，就像我们分析波动率时一样，我们需要对我们的样本量/频率给予很多考虑。大小和频率都对我们的相关性估计有很大影响。如果我们使用的频率太短，我们可能会将短期行为与持续相关性混淆。这个问题的另一面是使用的样本量太长（假设我们想要交易短期策略时的 1 年相关性）。如果我们查看下面的相关矩阵热图，我们可以清楚地看到使用 20 天窗口和 180 天窗口之间的区别

解决样本大小问题的一个好方法是对不同大小和不同时期（非重叠时期）进行采样，以测试相关性持久性。

3.假设长期相关性持续存在——相关性分析的主要缺陷之一是认为长期相关性不会失效。这种假设通常在金融压力和市场低迷时期被抛弃，因为相关性往往会破裂并走向极端。如果我们看看 2020 年 3 月，我们可以清楚地看到相关性的巨大变化

Z 分数 (%ile) 和均值回归

作为交易者，我们希望以良好的风险回报进入交易。我们用来确定风险回报的一种方法是使用 Z 分数。简而言之，Z-score 是一种衡量我们观察与分布均值的距离（以标准差计）的方法（该分数也可以很容易地转换为 %ile 项）。显然，作为交易者，我们的目标是寻找极端事件，因为它们提供了最好的风险回报（因为我们假设某种回归/趋同于均值）。Z-score 的棘手之处在于，与统计中的其他所有内容一样，它高度依赖于我们的样本量和频率。使用 z 分数作为信号的陷阱的一个很好的例子是 2020 年 3 月/4 月黄金期货场外交易基础上的走势。

所以我们看到使用 z 分数是时间序列极端性的一个很好的指标，但它不能是唯一的指标。

解决这个陷阱的一个很好的方法是将我们当前的观察结果与历史上不同的回顾窗口（时期）进行比较，以解释不同的市场制度。

模型实现

在我们了解了统计分析中可能存在的陷阱之后，我们转向交易的核心——我们的模型。虽然在实施我们的模型/策略时有很多方法可能会失败，但我们将专注于我们可能犯的最常见（也是最关键）的错误。避免这些陷阱将大大有助于确保我们模型的适应性和稳健性。

过拟合/欠拟合

模型拟合既是一门艺术，也是一门科学。在拟合我们的模型时，我们需要在模型过拟合和模型欠拟合之间找到一条细线。这两种偏差最有可能导致我们模型的性能不佳。

过拟合——当我们的模型在捕捉动态时非常精确时会导致过拟合。通常过拟合模型会涉及到相对大量的解释变量。

欠拟合-欠拟合是过拟合的镜像问题。当模型太简单（变量太少）时会导致欠拟合，这使得它在捕捉动态时不灵活。

USDJPY 1 周 RVol 与 UDSJPY 1 个月 RVol 回归。

在拟合模型时，我们的目标是使用最少的变量，但具有最大的预测能力。其背后的想法是，我们希望将模型校准到最低限度，同时拥有一个能够产生稳健结果的模型。我们添加的变量越多，我们需要进行的校准就越多，它能够快速应对不断变化的市场的能力就越差。

异常值处理

无论我们喜欢与否，异常值观察都是我们数据系列的一部分。我们不能忽略这些异常值，但是，我们需要知道如何处理它们，这样我们的模型才不会因极端观察而出现偏差。显然，我们需要区分异常值的类型——如果我们发现观察明显是错误的（数据错误），我们可以删除它，但是，如果它是有效的观察，我们应该接受它并让我们的模型处理它。

模型模拟

现在我们已经有了一个基于稳健统计/数据分析的健全模型，我们希望对历史（或生成的）数据进行回测（或模拟）。这是我们模型开发的关键部分，因为这是我们可以看到（和分析）我们的模型在受控环境中如何表现的关键。尽管在这个阶段犯错误的方法更少（与之前的阶段相比），但这些错误可能会付出高昂的代价，因为我们将无法发现模型的弱点（或问题）。

测试不同的市场区制状态

当我们构建模型时，我们希望它在 100% 的时间内表现良好。不幸的是，这几乎是不可能的，因为不同的策略将在不同的市场区制中表现良好（想想波动市场中的趋势跟踪策略）。我们可以确定模型表现不佳的点。为了让我们识别这些弱点，我们应该在不同的市场区制下测试我们的策略（区制转换模型是识别这些区制的好方法）

R语言改进的股票配对交易策略分析SPY-TLT组合和中国股市投资组合

相信大家都听说过股票和债券的多元化投资组合。改进的股票配对交易策略基本上使用了一种前进的方法（参考文章中的概念），即最大化夏普比率，偏向于波动率而不是收益率。也就是说，它使用72天的移动窗口来最大化投资组合的不同权重配置之间的总收益，标准差提高到52的幂。说得通俗一点，在1的幂数下，这是基本的夏普比率，在0的幂数下，只是一个动量最大化的算法。

这个策略的过程很简单:每个月重新平衡SPY和TLT之间5%的倍数，之前最大化了以下数量(在72天窗口中返回波动率^2.5)。

SPY和TLT组合

以下是获取数据和计算必要数据的代码:

require(quantmod)

getSymbols(c("SPY", "TLT"), from="1990-01-01")

for(i in 1:21) 

  weightSPY <- (i-1)*.05

  config <- Return.portfolio(R = returns, weights=c(weightSPY, weightTLT)

  period <- 72

接下来，建立权重的代码：


weights <- t(apply(monthlyModSharpe, 1, findMax))


weights[is.na(weights)] <- 0

也就是说，在每个重新平衡的日期(每月的月末)，简单地采用使每月修改的夏普比率计算最大化的设置。接下来是收益表现:

Performance(stratRets)

结果如下:

具有以下股票曲线：

并不完美，但相比之下，它的成分如何呢，我们来看看。


apply.yearly(Components, Return.cumulative)

以下是一些常见的统计数据:

简而言之，这一策略的表现似乎远远好于上述两种成分。我们来看看股票曲线的比较是否反映了这一点。

事实上，虽然它确实在危机中出现了下跌，但当时这两个工具都在下跌，所以看起来这个策略在糟糕的情况下取得了最好的效果.以下是年度收益。

yearly(Return.cumulative)

然而，从2002年整体上看，虽然该策略很少会像两个中更好的表现一样，但它总是比两个中更差的表现出色--不仅如此，即使在一个表现差的时候，该策略在回测的每一年中都取得了积极的表现，例如2008年的SPY，以及2009年和2013年的TLT。以下是SPY在策略中的权重。


weightSPY <- do.call(rbind, weightSPY)


TimeSeries(alig, date.format="%Y", ylab="SPY权重", main="SPY-TLT配对中SPY的权重")

贵州茅台和民生银行组合

股票数据获取及整理

## [1] "GZMT" "MSYH"

组合收益表现结果如下:

加入比较项-非组合下的单只表现

年化收益率比较

通过累积收益率、日收益率和最大回撤率，以及年化收益率比较，可以发现采用优化方法的投资组合明显优于传统的投资策略。

现在，虽然这对某些人来说可能是一个独立的策略，但在我看来，动态地重新加权两个具有负相关性的收益流，与它们形成的成分相比，可能会产生一些较好的结果。此外，模拟实际组合收益率所采用的方法很有趣，不是简单地依靠一个数字来总结两种工具之间的关系，毫无疑问，这种方法作为一种一般的前进方法，有着广泛的应用。