信号去极值

异常值是指那些分布明显异于普通分布的数值,会极大的干扰因子的研究,特别是对回归模型的研究。所以在对因子进行分析之前,除了要检查数据本身的正确性之外,数据的异常值的处理也十分重要。

正态分布去极值
这种想法的思路来自于正态分布,假设X?N(μ,σ2),那么:

P(|X?μ|>k?σ)=?????0.317,0.046, 0.003,k=1k=2k=3通常把三倍标准差之外的值都视为异常值,不过要注意的是样本均值和样本标准差都不是稳健统计量,其计算本身受极值的影响就非常大,所以可能会出现一种情况,那就是我们从数据分布图上能非常明显的看到异常点,但按照上面的计算方法,这个异常点可能仍在均值三倍标准差的范围内。因此按照这种方法剔除掉异常值后,需要重新观察数据的分布情况,看是否仍然存在显著异常点,若存在则继续重复上述步骤寻找异常点。winsorize函数默认使用正态分布法去极值,重复观察次数为5次。

分位数去极值(固定比例法)
将那些上下pvalue%/2的值进行拉回,认为其不可信。winsorize函数默认pvalue为0.05,这时候会将那些高于第97.5百分位数的值以及低于第2.5百分位数的值认为是异常值。

标准化
在对因子进行合成之前,我们还需要对每个因子进行标准化的处理,消除量纲的影响。常见的归一化方法就是zscore法。简单来讲对于一个截面的因子数据,就是(因子值 - 因子均值)/ 因子标准差。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值