对于adaboost算法的理解

最新推荐文章于 2022-04-10 19:06:16 发布

manderous

最新推荐文章于 2022-04-10 19:06:16 发布

阅读量6.9k

点赞数

文章标签：算法量化投资

本文链接：https://blog.csdn.net/manderous/article/details/51182782

版权

这段时间开始了四月份的量化投资比赛。算是对3月份量投的一个延续。相比于3月份一直在研究的神经网络和支持向量机，这次使用的adaboost算法作为框架来实现smartalpha策略算是一种新的突破。

1.对adaboost算法做一个总结
AdaBoost，是英文”Adaptive Boosting”（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于，前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。
AdaBoost是一种迭代算法，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重，表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。
具体流程这里就省略了，在网上都可以搜索到。
这里写图片描述

2.对smartalpha选股策略的一个总结
粗略的来说，我对smartalpha策略的初步感受是支持向量机和最大熵算法的一个结合。
（1）首先它和svn一样是一个分类器，选择股票池，然后将因子池的数据通过预处理之后带入算法，最终输出分类结果（可以是1、-1）。
（2）而最大熵的思想体现在对股票权值w的迭代训练。

w x i l + 1 = w x i l e - y i h i ( x ) k l

$w_{l+1}^{x_i }=\frac{w_l^{x_i } e^{-y_i h_i (x)}}{k_l}$

k l = \sum n i = 1 w x i l e - y i h i (x)

$k_l=∑_{i=1}^n{w_l^{x_i } e^{-y_i h_i (x)}}$
kl是为了使每一次迭代股票权重的和均为1。
最大熵模型源于信息论，其思想是：对已知的信息进行建模，对未知的不进行任何假设（Model all that is know and assume nothing about that which is unknow.）而对于股票池中的股票的权值进行的迭代也是运用了这种思想。
（3）对于弱分类器函数的构建，也是有点感受。此次弱分类器函数构建，选择了：

h (x) = 1 2 l n w + + ε w - + ε

$h(x)=\frac{1}{2}ln\frac{w_++ε}{w_-+ε}$
在机器学习的算法中会经常看到这种类似的公式，或者说经常使用对数函数。我的理解是：首先，这样去对数的函数往往是将一个值处理到（-1，1）的范围，方便观察和简化计算，另外对数函数使得最终得到的所有值的变化趋势放缓，同意也是方便观察和数据处理。
（4）最后，就是我对这次区分度函数的选择的理解：

z = \sum Q j = 1 w + w - - - - - - \sqrt

$z=∑_{j=1}^Q\sqrt{w_+w_-}$
w+代表强势股的权重，w-代表弱势股的权重
而 w+与w-之和为定值。由几何平均值<=算术平均值，即

w + w - - - - - - \sqrt \leq w + + w - 2

$\sqrt{w_+w_-}\leq\frac{w_++w_-}{2}$
当且仅当w+=w-时取等号，所以说区分度函数z越小，区分度越好。这也就是，我们此次量投sa选股策略选择z函数作为区分度函数的原因。

3.对adaboost不会过拟合的一种粗略有趣思考
有几篇文章都在说adaboost算法有两个特性：
一、训练的错误率上界，随着迭代次数的增加，会逐渐下降
二、adaboost算法即使训练次数很多，也不会出现过拟合的问题。

●对于第一个特性可以利用公式通过计算得到，这里不再提及（网络也可以搜索到）。
这里写图片描述

●而对于第二个特性，其实用公式和计算对于我们来说还有点抽象难理解。于是我想了一种新的思路来理解为什么adaboost算法不会过拟合。（想法不具有严谨性，但可以在大脑里思考一下这种new idea）(这里采用将adaboost算法与SVN进行对比，我们知道，若SVN处理得不好，会出现过拟合的现象)

（1）

对于如上所示图，将水平方向看成x轴方向，竖直方向看成y轴方向。则可将x轴和y轴看成adaboost算法中的两个因子。且每个因子设定了两个分位数，也就是分成3组。通过adaboost算法的训练，在x轴和y轴方向分别训练出一个弱分类器，最后相加如图所示。adaboost在这个二维平面中，考虑了x、y维点和叉的所有情况，没有再增加多余的限制条件。

（2）

而SVN训练次数过多以后（过拟合以后），会不断地增加新的约束条件，而这些新增的约束条件是基于训练样本的，这种新的约束条件是一种累赘，会造成过拟合现象。（在图中体现为，阴影部分围成的区域面积要小于adaboost算法中阴影部分围成的区域面积）。

（3）其实对比起来看，觉得adaboost同样有一种最大熵的思想，对已知信息在各个维度（各个因子）下进行约束，而不增加基于训练样本累赘的约束。也就回到了最大熵思想：对已知的信息进行建模，对未知的不进行任何假设。可能正是因为对未知信息不进行任何假设，所以增加训练次数或样本最终不会造成overfitting。

以上便是我对这次sa选股策略方法的一个感受和总结，若读者有任何疑问，欢迎提问，乐于解答。

                              ----------manderous唐

English time:
iteration 迭代
factor 因子
distinction degree区分度
strong stock 强势股
weak stock 弱势股
maxent modeling最大熵模型

manderous

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫