问题提出与分析
随着我国金融市场的形成和发展壮大,股票投资已成为我国居民日常生活中的一个热门话题。同时股票市场的日益成熟,对股票投资的绩效评价与未来走势的预测也为人们所关注。年中国股市的迅速发展,完成了中国证券市场发展的一次历史性的跨越。中国宏观经济持续高速增长带来的上市公司业绩大幅提高,为中国的股票市场的良好发展打下了坚实基础。在中国证券市场在一步步趋向完善和成熟的过程中,需要的不仅是国家宏观政策的引导,更需要广大的投资者具备合理的投资理念和方法。
研究目的及意义
降维问题最近越来越受到统计学家的重视而且在实际中有很广泛的应用,比如说、计算生物学中的基因选择金融统计分析等等。主成分分析是一种常用的数据处理方法。在高维数据分析中,它是重要的降维技术,在生物统计,社会科学,经济和金融领域有着广泛的作用。主成分的主要原理是对原始变量做一个线性变换,得到一组新的变量,而这组新的变量对原始数据的解释方差逐步减小。从而我们说,我们就得到了一系列方差逐步递减的主成分,更重要的是每个主成分互相正交,这样对问题的分析非常明了。然而主成分分析有它自身的缺点,主成分分析最终得到的主成分是所有原始变量的线性组合,而且,所有线性组合的系数通常非0,从而,主成分分析得到的每一个主成分就没有实际的解释意义。
稀疏主成分分析是在PCA 的基础之上对负载因子进行稀疏化,即使得大部分负载因子为0,从而使得主成分更具解释能力。SPCA综合考虑了主成分的方差与负载因子的稀疏化,从而弥补了传统PCA的缺陷。其次,稀疏主成分分析改善了原有主成分分析存在的某些缺陷。是一种流行的处理数据分析、数据压缩、数据可视化的方法,在科学和工程领域中应用极广。本质上讲,是通过寻找原始变量的线性组合使得数据在各方向上的方差达到最大,一般通过原始数据矩阵的分解或者其协方差矩阵的特征值分解来求解。由于主成分分析在各方向上的方差达到最大,因此提供了一种使得数据信息损失最小的压缩方法。其次各主成分是不相关的,这就便于解释或后续的统计分析。但是,从另一方面看,有一个明显的缺点,即各主成分是所有原始变量的线性组合,载荷通常非零。同时,主成分的载荷符号通常有正有负,当对应于实际问题出现效应的抵消时,用其给出的解释就很难达到很好的效果。在许多应用中,如果载荷中有许多零元素,那么主成分的解释将非常方便。因此,寻找有零元素的载荷向量即稀疏主成分有重要的实际意义。
稀疏主成分分析
SPCA是基于主成分分析可以转化为带二次罚回归问题而被提出的。即直接将主成分的求解问题转化为Lasso回归问题,这样,稀疏主成分的求解就有效地转化成了线性模型的变量选择问题,在此基础上再引入弹性网惩罚结构就可以得到稀疏主成分,即考虑优化问题:
则稀疏载荷 v1 的近似解为 Vi^=β^||β^