因子处理
更加详细的ptrade量化知识,后续会慢慢整理。
也可找寻博主历史文章,搜索关键词使用方案,比如本文涉及因子处理!
获取ptrade回测和实盘权限,欢迎和博主联系~
1、因子处理
1.1 特殊值处理
在我们因子数据处理的过程中,经常还会遇到一些特殊值的处理。举例来说如果通过因子值解释股票的收益率,如上图所示,大部分要么点分布合理能够通过一条直线近似拟合,但是突然出现一个样本点大幅度偏离原有分布位置。
极个别因子值异常的高,就会导致我们对于因子值和股票下阶段收益率的分析不准确,该点就是一个异常值。在因子处理时,这类异常值经常出现,我们要剔出这些值的影响。在学术问题中将其称作离群点,检验因子特殊值的处理同样是因子分析的关键因素。
如果不做特殊值的处理,会有某些股票的时大幅度影响到全体股票的均值。比如市值数据就要对市值特别大的某些股票进行处理,才能在之后的分析中得到一个大致集中于某些区间的数据。
常见的分析方法包括了标准差修正法,中位数极值法。我们可以看到图示在原始数据中有少量的离群点影响了数据分布,通过中位数极值法,大部分数据被规整到了同一个区间。
1.2 中性化处理
因子处理中因子的中性化处理也非常的重要,比如在2014年底一轮大牛市即将启动之时和2016年末,市场反弹之后,小市值的股票都出现了大幅度的下跌。这时候如果我们的因此选出的股票小市值占比过高,等待我们的可能就是巨大的亏损。
以市值为例,市值作为一个风险因子,我们应该尽量剔除它对于我们收益因子的影响,想要实现这一目的就需要通过线性回归等。做因子的中性化处理,比如我们要分析的因子对数值中性化后新的因子值等于原有因子值,而对数市值回归后的残差数据以残差数据作为新的因子值,市值因素对于原有因子值的影响就被剔除了。