量化数据预处理:去极值、标准化、中性化

对于量化研究而言,拿到一份基础数据,首先需要对数据做预处理,以便于更好的探究数据规律,基于不同目标有不同处理环节,其中去极值、标准化、中性化这三点经常被放在一起讨论。整理网络资料,理解如下。

  • 去极值

    数据(单个因子的时间序列数据)中存在异常值,可能会导致拉大标准差、拉偏统计规律…

    常规处理理念就是确定此数据指标(比如某个因子)的上下限阈值,然后超过(或低于)此限度的数据均设置为阈值,以提高数据结论的准确性。

    上下限的判定方法有三种:MAD、 3 σ 3\sigma 3σ法、百分位法。

    • MAD(Median Absolute Deviation, 绝对值差中位数法)

      MAD,先计算所有因子与平均值之间的距离总和来检测离群值。

      • 计算所有因子的中位数 X m e d i a n X_{median} Xmedian
      • 计算每个因子与中位数的绝对偏差值 X i − X m e d i a n X_i-X_{median} XiXmedian
      • 计算绝对偏差值的中位数 M A D MAD MAD
      • 确定参数 n n n,从而确定合理的范围为 [ X m e d i a n − n ∗ M A D , X m e d i a n + n ∗ M A D ] [X_{median}-n*MAD,X_{median}+n*MAD] [XmediannMAD,Xmedian+nMAD],针对超出合理范围的值做如下调整:

        X i ′ = { X m e d i a n + n ∗ M A D &ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X i &gt; X m e d i a n + n ∗ M A D X m e d i a n − n ∗ M A D &ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X i &lt; X m e d i a n − n ∗ M A D X i &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X m e d i a n − n ∗ M A D &lt; X i &lt; X m e d i a n + n ∗ M A D X_i&#x27;=\begin{cases}X_{median}+n*MAD\;\;\;if \;X_i&gt;X_{median}+n*MAD\\X_{median}-n*MAD\;\;\;if\;X_i&lt;X_{median}-n*MAD \\ X_i\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;if \;X_{median}-n*MAD&lt;X_i&lt;X_{median}+n*MAD \end{cases} Xi=Xmedian+nMADifXi>Xmedian+nMADXmediannMADifXi<XmediannMADXiifXmediannMAD<Xi<Xmedian+nMAD

      # 代码实现
      def mad(series,n):
          median = series.quantile(0.5)
          diff_median = ((series - median).abs()).quantile(0.5)
          max_range = median + n * diff_median
          min_range = median - n * diff_median
          return np.clip(series, min_range, max_range)
      
      
    • 3 σ 3\sigma 3σ

      3 σ 3\sigma 3σ法又称为标准差法。

      标准差本身可以体现因子的离散程度,是基于因子的平均值 X m e a n X_{mean} Xmean而定的。可以通过 X m e a n ± n ∗ σ X_{mean}\pm n*\sigma Xmean±nσ来衡量因子与平均值的距离。

      • 计算出因子的平均值与标准差;

      • 确认参数 n n n;

      • 确认因子值的合理范围为 [ X m e a n − n ∗ σ , X m e a n + n ∗ σ ] [X_{mean}-n*\sigma,X_{mean}+n*\sigma] [Xmeannσ,Xmean+nσ],并对因子值做如下的调整:
        X i ′ = { X m e a n + n ∗ σ &ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X i &gt; X m e a n + n ∗ σ X m e a n − n ∗ σ &ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X i &lt; X m e a n − n ∗ σ X i &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace; X m e a n − n ∗ σ &lt; X i &lt; X m e a n + n ∗ σ X_i&#x27;=\begin{cases}X_{mean}+n*\sigma\;\;\;if \;X_i&gt;X_{mean}+n*\sigma\\X_{mean}-n*\sigma\;\;\;if\;X_i&lt;X_{mean}-n*\sigma \\ X_i\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;if \;X_{mean}-n*\sigma&lt;X_i&lt;X_{mean}+n*\sigma \end{cases} Xi=Xmean+nσifXi>Xmean+nσXmeannσifXi<XmeannσXiifXmeannσ<Xi<Xmean+nσ

      # 代码实现
      def three_sigma(series,n):
          mean = series.mean()
          std = series.std()
          max_range = mean + n * std
          min_range = mean - n * std
          return np.clip(series, min_range, max_range)
      
    • 百分位法

      将因子值进行升序排列,对排位百分位高于97.5%或低于2.5%的因子值,进行类似于MAD、 3 σ 3\sigma 3σ的操作。

      # 代码实现
      def percentile(series, min= 0.025, max= 0.975):
          series = series.sort_values()
          q = series.quantile([min, max])
          return np.clip(series, q.iloc[0], q.iloc[-1])
      
  • 标准化

    对于多因子策略,不同因子的量纲和数量级不同,为实现不同指标的可加性,需要对原始指标数据进行标准化处理。

    数据标准化方法分类:

    • 直线型:极值法、标准差法
    • 折线型:三折线法
    • 曲线型法:半正态性分布

    数据标准化处理主要包括:

    • 数据同趋化:主要解决不同性质数据问题,使所有指标对评测方案的作用力同趋化
    • 无量纲化:主要解决数据的可比性。

    数据标准化原理是将数据按比例缩放,使所有数据落入一个小的特定区间。最常见的就是归一化,将数据统一映射到[0,1]之间。

    归一化是标准化的特例,标准化是特征缩放的特例。

    数据标准化的具体方法:

    • 最小-最大标准化(Min-max normalization)离差标准化

      Min-max normalization又称为离差标准化,是常见的归一化处理

      • 获取因子值最大值max,最小值min;
      • 对数据进行线性变化

        y i = x i − m i n 1 ≤ j ≤ n { x j } m a x 1 ≤ j ≤ n { x j } − m i n 1 ≤ j ≤ n { x j } y_i=\frac{x_i-min_{1\leq j \leq n}\{x_j\}}{max_{1\leq j \leq n}\{x_j\}-min_{1\leq j \leq n}\{x_j\}} yi=max1jn{xj}min1jn{xj}ximin1jn{xj}

    • Z-score标准化

      标 准 化 后 数 据 = 原 始 数 据 − 单 个 指 标 内 所 有 值 的 均 值 单 个 指 标 内 所 有 值 的 标 准 差 标准化后数据=\frac{原始数据-单个指标内所有值的均值}{单个指标内所有值的标准差} =

      # 代码实现
      def standard_z_score(series):
          std = series.std()
          mean = series.mean()
          return (series-mean)/std
      
    • 按小数定标标准化
  • 中性化

    中性化目的:为了在用某一个因子时能剔除其他因素的影响,使得选出的股票更加分散。相比而言,标准化使不同量级指标之间需要互相比较或者数据需要变得集中。

    主要处理方式为:利用回归得到一个与风险因子线性无关的因子。即通过简历线性回归,提取残差作为中性化后的新因子。这样处理后的中性化因子与风险因子之间的相关性严格为零。
    F a c t o r i = β M ∗ l n ( M k t V a l i ) + ∑ j = 1 n β j ∗ I n d u s t r y j , i + ϵ i Factor_i=\beta_M*ln(MktVal_i)+\sum^n_{j=1}\beta_j*Industry_{j,i}+\epsilon_i Factori=βMln(MktVali)+j=1nβjIndustryj,i+ϵi


  • Reference

  1. 1行代码完成去极值、标准化、行业与市值中性化—以pb因子为例
  2. 数据处理专题:去极值、标准化、中性化
  3. Wikipedia Feature scaling
  4. Wikipedia Normalization (statistics)
  • 5
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值