机器学习(XgBoost）预测顶和底_xgboost预测技术指标-CSDN博客

本文链接：https://blog.csdn.net/hbaaron/article/details/138139416

之前的文章中，我们对中证1000指数进行了顶和底的标注。这一篇我们将利用这份标注数据，实现机器学习预测顶和底，并探讨一些机器学习的原理。

我们选取的特征非常简单–上影线和WR（William’s R）的一个变种。选取这两个因子，是基于东吴证券高子剑在2020年6月的一份研报:上下影线，蜡烛好还是威廉好？。

他们的结论是，根据这两类指标的变种得到的综合因子，在2009到2020年4月，以全A为样本，进行5组分层多空测试，得到年化收益为15.86%，最大回撤仅为3.68%，可以说具有非常明显的信号意义。

在这里插入图片描述

在上一篇文章中，我们提到机器学习总是把要解决的问题归类为两类，一类是回归，一类是分类。如果要预测的target取值处在连续实数域上，这往往是个回归问题；如果target的值域为有限个离散状态，则是一个分类问题。

然而，具体问题总是复杂许多。初学者会觉得，既然股价的取值是在连续实数域上，因此可以把它看成回归问题，使用类似LSTM之类的神经网络来预测股价。但实际上由于金融数据的噪声问题，这么做并没有什么道理。

很可能只有在构建资产定价模型时，才可以当成回归来处理，也就是，根据公司的基本面和宏观经济指标来确定公司的市值，进而推算出股价。这本质上跟预测落杉叽的房价是同样的问题。

如果我们要构建时序方向上的预测信号呢？很可能只能用我这里的方法，不去预测每一个bar的涨跌和价格，而是改为预测顶和底，最终实现买在底部，卖出在顶部。

安装XgBoost

我们一般通过conda来安装它的Python包，但pip（需要版本在21.3以上）也是可以的。

conda install -c conda-forge py-xgboost

在Windows上安装时，还需要额外安装VC的分发包。

如果你的机器安装有支持cuda的GPU，那么conda会自动安装带GPU支持的xgboost。

不过，GPU对xgboost的加速并没有对CNN这样的神经网络那么明显。也就是说，即使有GPU，xgboost也只会在某些阶段利用到GPU加速，总体上可能会快几倍而已。考虑到我们的标注数据本身比较小，这个加速并不重要。

数据构造

经过顶底数据标注之后，我们已经获得了一份如下格式的数据:

这份数据包括了标签（即flag一列），但没有我们要的特征工程数据。因此，我们要先从OHLC数据中提取出特征。

我们决定先从最简单的特征提取–上影线和WR（William’s R）的一个变种。选取这两个因子，是基于东吴证券高子剑在2020年6月的一份研报:上下影线，蜡烛好还是威廉好？。

他们的结论是，根据这两类指标的变种tr得到的综合因子，在2009到2020年4月，以全A为样本，进行5组分层多空测试，得到年化收益为15.86%，最大回撤仅为3.68%，可以说具有非常明显的信号意义。

66%

基于这个基础，我们改用机器学习的方法来做一遍。我们用来提取上下影线和WR的方法如下：

def wr_up(bars):
    h, c, l = bars["high"], bars["low"], bars["close"]
    shadow = h - c

    # 技巧：避免产生除零错误，且不影响结果正确
    return shadow/(h - l + 1e-7)

def wr_down(bars):
    h, c, l = bars["high"], bars["low"], bars["close"]
    shadow