一、背景
在证券市场股票很多,就比如在我们国内某证券市场就有三千多只股票,那如何作为一个新手,我们如何从这三千多只股票中选出几只优质股票进行投资呢?如果我们一个一个的去了解每只股票对应公司的资产,营收情况等情况显然很费事,并且不容易综合比较出优质股。那么这时就计算机帮忙,帮我们选出优质股票。具体怎么帮呢?这就涉及到了我们今天要说的内容PCA优质股票推荐
二、主成分分析PCA原理
主成分分析PCA本质是用来选取主要成分的,即主要特征的。并不是用来做优质股票选取的。那我们如何就使用PCA来完成优质股票推荐呢?
1.PCA作用
我们拿到一堆预先处理好的数据(即做过空值填充,分布不平衡处理等)后,首先取其中与我们特定任务有关的一部分字段(即部分数据,如:X1,X2,X3,X4),这些数据之间可能存在着相关性,即数据之间存在着内部联系。 那么这些字段我们是不能直接拿来用的,要先去掉他们的相关性。那如何去掉这些相关性呢?常见的一种手段就是PCA
PCA的思路是保持特征尽量不变(主体成分,这里一般指方差)的情况下,用一些不存在相关性的字段(Y1,Y2,Y3)代替原来的字段(X1,X2,X3,X4)。其中Y1,Y2,Y3保留的特征(即方差)依次从大到小。在大多数情况下,原来可能一百多个字段X,PCA分析后,只需要几个字段Y就能保留原来大部分的特征。
那怎么就能使用PCA来做排名呢?比如收入有很多因素构成,原来用X1,X2&