机器学习
目录
1. 原理
什么是机器学习?
随着计算机技术的发展,投资者不再只局限于传统投资策略,机器学习在资本市场得到广泛应用。机器学习的核心是通过机器模仿人类的思考过程以及思维习惯,通过对现有数据的学习,对问题进行预测和决策。目前,机器学习已在人脸识别、智能投顾、自然语言处理等方面得到广泛应用。
机器学习可以分为两类,一类是无监督学习,另一类是监督学习。监督学习是指按照已有的标记进行学习,即已经有准确的分类信息。比如二分类问题,一类是“好”,另一类是“不好”,这种明确地指出分类基准的问题。这类模型包括:神经网络、决策树、支持向量机等。
无监督学习是指针对未标记过的数据集进行学习。比如聚类问题,没有准确的标准说明应该聚成几类,只有相对概念。这类模型包括:K_means聚类、层次聚类法等。
什么是支持向量机?
支持向量机是最典型的一类机器学习模型,常用于解决二分类问题。支持向量机的原理是在一个样本空间内,找到一个平面,将样本数据分为两个部分,即两个分类,这个平面就叫做超平面。
怎样确定超平面?
假设有一个线性可分的二分类问题如图所示。
已知A、B、C三条线均可以将样本空间分为两类,那么问题来了,应该选择哪一个?
SVM模型指出,如果超平面能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则把这个超平面称作最优超平面,即上图中的B平面。两类样本中距离最优超平面的点成为支持向量,支持向量机模型的名字由此得出。
支持向量机背后的数学原理十分优美,但由于推导过程过于复杂,这里不再赘述。总之,支持向量机的核心就是寻找最优超平面。
支持向量机不仅可以解决线性可分问题,也可以解决非线性可分问题。其核心思想是将原始样本点映射到高维空间上,将非线性转化为线性可分,在高维空间中找到满足条件的最优超平面,再映射到低维空间中。
利用支持向量机预测股票涨跌
在利用支持向量机进行预测之前,先将数据集分为训练集和测试集。常用的分类方法是将数据及进行8:2分解,0.8部分是训练集,0.2部分是测试集。用训练集训练模型,再用测试集评价模型的准确率等指标。
在利用支持向量机预测时,还有很重要的一步是进行参数优化。SVM的参数包括以下几个。
还有一些其他的参数,因为本示例不对其进行优化,所以这里不再赘述了。
参数优化
本示例采用网格搜索算法优化参数,训练好的参数为C = 0.6, gamma = 0.001,训练后的准确率为 0.50。(这个准确率虽然看起来很低,但在现实生活中准确率都处于较低水平,这里暂时用这个优化后的参数进行建模。)
2. 策略思路
第一步:获取原始数据,这里获取2016-04-01到2017-07-30的数据。
第二步:计算SVM模型的输入变量。
x 表示输入的特征值,共7个,分别为:
y 表示5个交易日后收盘价是否上涨,
第三步:利用训练好的模型预测股价未来走向。若上涨(y=1)则开仓。
第四步:设置止损止盈点。
若已经持有仓位则在盈利大于10%的时候止盈,在星期五损失大于2%的时候止损。
回测时间:2017-07-01 09:00:00 到 2017-10-01 09:00:00
回测初始资金:1000万
回测标的:SHSE.600000
3. 策略代码
# coding=utf-8
from __future__ import print_function, absolute_import, unicode_literals
from gm.api import *
import sys
import datetime
import numpy as np
try:
from sklearn import svm
except:
print('请安装scikit-learn库和带mkl的numpy')
sys.exit(-1)
'''
示例策略仅供参考,不建议直接实盘使用。
本策略以支持向量机算法为基础,训练一个二分类(上涨/下跌)的模型,模型以历史15天数据的数据预测未来5天的涨跌与否。
特征变量为:1.收盘价/均值、2.现量/均量、3.最高价/均价、4.最低价/均价、5.现量、6.区间收益率、7.区间标准差。
若没有仓位,则在每个星期一预测涨跌,并在预测结果为上涨的时候购买标的.
若已经持有仓位,则在盈利大于10%的时候止盈,在星期五涨幅小于2%的时候止盈止损.
'''
def init(context):
# 股票标的
context.symbol = 'SHSE.600000'
# 历史窗口长度
context.history_len = 10
# 预测窗口长度
context.forecast_len = 5
# 训练样本长度
context.training_len = 90# 20天为一个交易月
# 止盈幅度
context.earn_rate = 0.10
# 最小涨幅卖出幅度
context.sell_rate = 0.02
# 订阅行情
subscribe(symbols=context.symbol, frequency='60s')
def on_bar(context, bars):
bar = bars[0]
# 当前时间
now = context.now
# 获取当前时间的星期
weekday = now.isoweekday()
# 上一交易日
last_date = get_previous_trading_date(exchange='SZSE', date=now)
# 上一年的交易日
last_year_date = get_previous_N_trading_date(last_date,counts=context.training_len,exchanges='SHSE')
# 获取持仓
position = context.account().position(symbol=context.symbol, side=PositionSide_Long)
# 如果当前时间是星期一且没有仓位,则开始预测
if weekday == 1 and now.hour==9 and now.minute==31 and not position:
# 获取预测用的历史数据
features = clf_fit(context,last_year_date,last_date)
features = np.array(features).reshape(1, -1)
prediction = context.clf.predict(features)[0]
# 若预测值为上涨则买入
if prediction == 1:
order_target_percent(symbol=context.symbol, percent=1, order_type=OrderType_Market,position_side=PositionSide_Long)
# 当涨幅大于10%,平掉所有仓位止盈
elif position and bar.close/position['vwap'] >= 1+context.earn_rate:
order_close_all()
# 当时间为周五尾盘并且涨幅小于2%时,平掉所有仓位止损
elif position and weekday == 5 and bar.close/position['vwap'] < 1+context.sell_rate and now.hour==14 and now.minute==55:
order_close_all()
def on_order_status(context, order):
# 标的代码
symbol = order['symbol']
# 委托价格
price = order['price']
# 委托数量
volume = order['volume']
# 目标仓位
target_percent = order['target_percent']
# 查看下单后的委托状态,等于3代表委托全部成交
status = order['status']
# 买卖方向,1为买入,2为卖出
side = order['side']
# 开平仓类型,1为开仓,2为平仓
effect = order['position_effect']
# 委托类型,1为限价委托,2为市价委托
order_type = order['order_type']
if status == 3:
if effect == 1:
if side == 1:
side_effect = '开多仓'
elif side == 2:
side_effect = '开空仓'
else:
if side == 1:
side_effect = '平空仓'
elif side == 2:
side_effect = '平多仓'
order_type_word = '限价' if order_type==1 else '市价'
print('{}:标的:{},操作:以{}{},委托价格:{},委托数量:{}'.format(context.now,symbol,order_type_word,side_effect,price,volume))
def clf_fit(context,start_date,end_date):
"""
训练支持向量机模型
:param start_date:训练样本开始时间
:param end_date:训练样本结束时间
"""
# 获取目标股票的daily历史行情
recent_data = history(context.symbol, frequency='1d', start_time=start_date, end_time=end_date, fill_missing='last',df=True).set_index('eob')
days_value = recent_data['bob'].values
days_close = recent_data['close'].values
days = list(recent_data['bob'])
x_train = []
y_train = []
# 整理训练数据
for index in range(context.history_len, len(recent_data)):
## 自变量 X
# 回溯N个交易日相关数据
start_date = recent_data.index[index-context.history_len]
end_date = recent_data.index[index]
data = recent_data.loc[start_date:end_date,:]
# 准备训练数据
close = data['close'].values
max_x = data['high'].values
min_n = data['low'].values
volume = data['volume'].values
close_mean = close[-1] / np.mean(close) # 收盘价/均值
volume_mean = volume[-1] / np.mean(volume) # 现量/均量
max_mean = max_x[-1] / np.mean(max_x) # 最高价/均价
min_mean = min_n[-1] / np.mean(min_n) # 最低价/均价
vol = volume[-1] # 现量
return_now = close[-1] / close[0] # 区间收益率
std = np.std(np.array(close), axis=0) # 区间标准差
# 将计算出的指标添加到训练集X
x_train.append([close_mean, volume_mean, max_mean, min_mean, vol, return_now, std])
## 因变量 Y
if index<len(recent_data)-context.forecast_len:
y_start_date = recent_data.index[index+1]
y_end_date = recent_data.index[index+context.forecast_len]
y_data = recent_data.loc[y_start_date:y_end_date,'close']
if y_data[-1] > y_data[0]:
label = 1
else:
label = 0
y_train.append(label)
# 最新一期的数据(返回该数据,作为待预测的数据)
if index==len(recent_data)-1:
new_x_traain = [close_mean, volume_mean, max_mean, min_mean, vol, return_now, std]
else:
# 剔除最后context.forecast_len期的数据
x_train = x_train[:-context.forecast_len]
# 训练SVM
context.clf = svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False,
tol=0.001, cache_size=200, verbose=False, max_iter=-1,decision_function_shape='ovr', random_state=None)
context.clf.fit(x_train, y_train)
# 返回最新数据
return new_x_traain
def get_previous_N_trading_date(date,counts=1,exchanges='SHSE'):
"""
获取end_date前N个交易日,end_date为datetime格式,包括date日期
:param date:目标日期
:param counts:历史回溯天数,默认为1,即前一天
"""
if isinstance(date,str) and len(date)>10:
date = datetime.datetime.strptime(date,'%Y-%m-%d %H:%M:%S')
if isinstance(date,str) and len(date)==10:
date = datetime.datetime.strptime(date,'%Y-%m-%d')
previous_N_trading_date = get_trading_dates(exchange=exchanges, start_date=date-datetime.timedelta(days=max(counts+30,counts*2)), end_date=date)[-counts]
return previous_N_trading_date
def on_backtest_finished(context, indicator):
print('*'*50)
print('回测已完成,请通过右上角“回测历史”功能查询详情。')
if __name__ == '__main__':
'''
strategy_id策略ID,由系统生成
filename文件名,请与本文件名保持一致
mode实时模式:MODE_LIVE回测模式:MODE_BACKTEST
token绑定计算机的ID,可在系统设置-密钥管理中生成
backtest_start_time回测开始时间
backtest_end_time回测结束时间
backtest_adjust股票复权方式不复权:ADJUST_NONE前复权:ADJUST_PREV后复权:ADJUST_POST
backtest_initial_cash回测初始资金
backtest_commission_ratio回测佣金比例
backtest_slippage_ratio回测滑点比例
'''
run(strategy_id='strategy_id',
filename='main.py',
mode=MODE_BACKTEST,
token='{{token}}',
backtest_start_time='2021-02-01 09:00:00',
backtest_end_time='2021-02-28 09:00:00',
backtest_adjust=ADJUST_PREV,
backtest_initial_cash=10000000,
backtest_commission_ratio=0.0001,
backtest_slippage_ratio=0.0001)
4. 回测结果与稳健性分析
设定初始资金1000万,手续费率为0.01%,滑点比率为0.01%。回测结果如下图所示。
回测期累计收益率为9.30%,年化收益率为38.13%,沪深300指数收益率为5.09%,策略收益率跑输指数。策略最大回撤为0.56%,胜率50.0%。
为了检验策略的稳健性,改变回测时间,得到结果如下。
由上表可知,策略整体收益均小于0,远远跑输基准水平。
注:来自掘金量化