机器学习和量化投资

70%训练,15%验证,15%测试
利用 cross validation ,寻找合适的超参数
使用遗传算法选择合适的输入特征,定义fitness函数,选择R2最大的属性
随机森林定义大量的决策树进行决策
adaboost利用大量的子分类器,对子分类器分配权重,对训练数据分配权重,分类错误的数据得到更大的权重,组合成一个更强的分类器
riage是L2,参数空间是圆形,lasso是L1,参数空间是矩形,可以把一些参数干成0
所有的方阵都可以分解成SVS(-1),但是只有对称方阵分解出的S是正交阵,而正交阵的逆等于转置,所以对称矩阵可以分解为
QVQ(T)

sharp比率衡量风险:(收益率-大盘收益率)/(方差-大盘方差)的开根号

对于多只股票配置的权重,先根据历史数据得到股票收益的协方差矩阵M,然后根据risk=W(T)MW,最小化risk就可以得到权重。
1:计算M的特征值,对应第二小特征值的特征向量就是解;
2:把risk看成最优化问题,利用拉格朗日算子求解;
3:先对M进行特征分解,将其中特征值属于随机矩阵一个方差范围内的特征值全部置为0,重构M,然后对新M使用解法1或解法2

解决overfitting
1:增加数据
2:正则化
3:dropout
4:earlystoping
5:cross validation

bias variance tradeoff :
模型如果variance大,则很容易覆盖最优解,则bias就小;反之,bias就大
通常,简单的模型variance小(不同数据上的结果差异较小),bias大,容易表现为欠拟合,需要增加模型复杂度,加入新的特征;复杂的模型variance大(表达能力强,对不同数据较敏感,结果差异较大),bias小(平均来说与真实结果较为接近),容易表现为过拟合,需要增加更多数据(非常有效,但不太现实)或者用正则化来控制模型的复杂程度。
在机器学习任务中,如果使用测试集正确率为依据来调整模型,容易出现过拟合的现象,使得泛化误差很大。通常做法是交叉验证(Cross Validation),根据划分验证集上的平均结果来调整模型,不要过分关心测试集上的结果,如果验证集上的误差小,那么测试集上的期望误差也会小。

数据失衡现象:99%是正确值,1%是错误值,就算全部预测为正确值,也有99%的正确率,无法发现错误值
1.修正逻辑斯蒂分类的阈值,原来阈值是0.5,可以考虑改成0.7
2.修正数据的权重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值