Python集成学习算法在股票价格预测方面的应用
支持向量机/决策树/bp神经网络/xgboost
四种算法的概念:
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)。SVM在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习
BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,分类应用十分优越和普遍,是目前应用最广泛的神经网络。
XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost是集成学习方法的王牌,在Kaggle数据挖掘比赛中,大部分获胜者用了XGBoost,XGBoost在绝大多数的回归和分类问题上表现的十分顶尖,因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。
python集成学习算法在股票价格预测方面的应用研究实战:
将80%样本数据训练svm、决策树和神经网络三个模型,训练完之后用剩下的20%数据做测试集,三个模型预测结果取平均值,算出最终的预测误差(均方误差)。仍然用那80%数据训练xgboost模型,训练好后用测试集算出预测精度。结果精度如下: