在分析量化交易模型中,经常会遇到一类问题就是:在万的和其他的平台上能获取各种各样的基本面指标,情绪指标,各种指标,我们当然可以用单因子分析的方法流程来处理,但是还是有一个问题是掩饰不住的,就是指标很多很多,但是样本点很少很少,这个时候其实总体来说预测因子的数目 p 特别大,而样本数量 n 却很小,毕竟每年才 240 多天, 因此,这属于 p>>n 的问题,属于高维统计(high-dimensional statistics)问题, 应该用一些稀疏性(sparsity)的模型来求解,如 lasso 模型,而不是那些神经 网络、深度学习等复杂的模型。
以下有若干资料整理: