这是一篇文献阅读笔记,文献为:
这篇文章总结了多重比较谬误的成因和三种主要解决方式: Benferroni’s Adjustment、Holm’s adjustment 以及Benjamini, Hochberg, and Yekutieli’s adjustment,并在考虑了多重比较偏误的前提下对1962年以来Top Journal中提到的313个因子进行了多重检验,认为5%显著性水平下的 t t t 值临界值至少应为2.80,而非目前的1.96。
文章目录
-
-
- Introduction
- The Search Process
- Factor Taxonomy
- Adjusted t-statistics in Multiple Testing
- 主要参考链接
-
Introduction
An Intuitive Sample about Multiple Comparison Bias
在一次假设检验中,我们使用显著性水平 α \alpha α 和 p p p 值得出结论。显著性水平 α \alpha α 一般取0.05或0.01,可以保证一次假设检验中犯 I 类错误的概率和决策错误的风险小于 α \alpha α 。
但是在 m m m 次假设检验中,假设 m = 100 m=100 m=100 和 α = 0.01 \alpha=0.01 α=0.01 ,假设检验之间相互独立,不犯错误的概率为 ( 1 − 0.01 ) 100 = 36.6 % (1-0.01)^{100}=36.6\% (1−0.01)100=36.6% ,而至少犯一次错误的概率高达 P = 1 − ( 1 − 0.01 ) 100 = 1 − 0.366 = 63.4 % P=1-(1-0.01)^{100}=1-0.366=63.4\% P=1−(1−0.01)100=1−0.366=63.4%。举个实际的例子,假如有一种诊断艾滋病的试剂,试验验证其准确性为99%(每100次诊断就有一次false positive)。对于一个被检测的人来说(single test),这种准确性足够了。但对于医院来说(multiple test),这种准确性远远不够,因为每诊断10000个人,就会有100个非艾滋病病人被误诊为艾滋病,这显然是不能接受的。所以,对于多重检验,如果不进行任何控制,犯一类错误的概率便会随着假设检验的个数迅速增加。
Topic
跨期回报因子研究中显著性水平的临界值
What we do
We present a new framework that allows for multiple tests and derive recommended statistical significance levels for current research in asset pricing.
-
313 papers published in a selection of journals that study cross-sectional return patterns.回顾了研究跨期回报的313篇文献
-
provide recommended test thresholds from the first empirical tests in 1967 to present day 提供了1967年至今实证检验中推荐的显著性水平阈值
-
We present a taxonomy of historical factors, as well as definitions 建立了一个历史因子的分类系统
数据窥视( data-snooping )是指从数据中发现统计上显著但实际并不存在的关系,是金融分析里面非常普遍和严重的一个问题。在金融分析中,因为我们可以对同一个数据集进行无数次的实证研究,如果有足够的时间、足够的尝试和足够的想象力,我们可以不需要考虑经济上的合理性而直接寻找金融变量统计上的关系,这样我们几乎能从任何数据集中推断出任何规律。通过数据窥探,我们可以让数据分析结果更显著来支持自己的立场,这些行为往往让实验无法重复。
Related Research
- McLean and Pontiff (2015): 股票市场异像(可能是由统计偏误导致)
- Lewellen, Nagel, and Shanken (2010): 跨期回报研究中的统计偏误和无效率
- Sullivan, Timmermann, and White (1999, 2001) and White (2000): 使用多重检验(Multiple Testing)来检验和校正数据窥视偏差
- Foster, Smith, and Whaley (1997), Cooper and Gulen (2006), and Lynch
and Vital-Ahuja (2012): 回归预测中的数据窥视偏差和变量选择问题 - Shanken (1990), Ferson and Harvey (1999), Boudoukh et al. (2007), and Patton and Timmermann (2010): 金融文献中多重检验方法的应用
- Barras, Scaillet, and Wermers (2010),Bajgrowicz and Scaillet (2012), and Kosowski et al. (2006): 研究量化交易和共同基金表现的多重检验
总结:在大量公司特征、会计、金融、高频交易文献中普遍存在数据窥视问题,而多重检验是发现并缓解这个问题的一个方法。
Goal
- use a multiple testing framework to both re-evaluate past research and to
provide a new benchmark for current and future research: 使用一个多重检验的框架来重新评估以往文献的准确性,并为现在和未来的研究提供一个Benchmark - 最常见的几种假设检验/贝叶斯方法/变量选择
Limitations
- 是否应该在目前发现的所有因子的检验上"一视同仁"
- 阈值和金融因子的重要性在不同的经济情形下而有所不同
The Search Process
- 目的主要在于学者们提出的市场因子、账面市值比因子之外的各种新因子的合理性,主要基于提出新因子的理论文献,以及第一篇提供检验显著性的实证文献
- 有时不同的文献会针对同一因子提供不同的代理变量,我们都会纳入
- 我们目的在于研究对股票回报规律有普适意义的因子,因此会忽略哪些只聚焦于特定市场、特定时间段的文献
- 有些理论文献提出的因子暂时没有合适的代理变量,不纳入研究范围
- 250 Pubulished on top journals / 63 Working papers suspected being in review at top journals
- 局限性:只看top journals/可能遗漏了那些曾经被检验过,但是不显著,因此从未被发表的因子
Factor Taxonomy
将因子分类:
Adjusted t-statistics in Multiple Testing
Why multiple testing?
Given that so many papers have attempted to explain the same cross-section of expected returns, statistical inference should not be based on a “single” test perspective. 认为许多文献都是在对同一段时间的跨期收益做回归,存在多重比较偏误,即随着回归次数的增加,犯 I 类错误的概率也越来越大,只要跑的次数足够多,总有一次是显著的。因此,对因子进行 Single Test 不再可取,需要将随着检验次数增加而带来的 I 类错误发生的频率增加考虑在内。
大多文献的研究时间段随不尽相同,但是总有重叠的时间,如果认为时间序列是平稳的,则时间区间理论上应该对结果并无影响
有两种方法解决多重检验带来的偏误:
- 样本外检验(Out-of-sample Validation)
- eg:McLean and Pontiff (2015) 通过这种方法排除了97个异像中的12个(本文作者认为这个结果是低估了)
- 优点:当这种方法可行时,是一种干净地排除伪显著的操作
- 缺点:不能实时使用,只能站在"事后"的视角来看,没有时效性
- 使用一个统一的统计框架(A statistical framework) √
多重假设检验
顾名思义,多重假设检验就是多个假设检验。如果有 m m m 个人,那么 m m m 个假设检验就是一个例子。 m m m 个假设检验的结果可以表示为:
Null hypothesis is true(H0) Alternative hypothesis is true(H1) Total Test is declared significant V(假正例) S(真反例) R Test is declared non-significant U(真正例) T(假反例) m-R Total m 0 m_0 m0 m − m 0 m-m_0 m−m0 m
- m 表示假设检验的个数
- m 0 m_0 m0 表示原假设为正的个数
- m − m 0 m-m_0 m−m0 表示备择假设为真的个数
- V V V 表示实际上不应拒绝原假设,而统计检验拒绝了原假设的个数(Type I Error)
- U U U 表示实际和检验都没有拒绝原假设的个数
- S S S 表示实际和检验都拒绝了原假设的个数
- T T T 表示实际上应该拒绝原假设,而统计检验没有拒绝的个数(Type II Error)
假如在某次实验中拒绝原假设,表明发现了一个新的定价因子,无论实际上这个因子是真因子还是假因子,都记为一次发现(Discovery)。R=V+S 表示发现的个数,V表示错误发现的个数,用Q表示错误发现的比例,即Q=V/R=V/(V+S)。FWER定义为V大于或等于1的概率,即 F W E R = P r { V ≥ 1 } = 1 − P r { V = 0 } FWER=Pr\{V \geq 1\}=1-Pr\{V=0\} FWER=Pr{ V≥1}=1−Pr{ V=0}。FDR定义为Q的期望,即 F D R = E [ Q ] FDR=E[Q] FDR=E[Q] 。
由于在 m 个检验中,V,S,U,T 都是随机变量,所以FDR需要用期望的形式来表示。如果R=0,则认为Q=0。为了包含这种情况, F D R = E [ V / R ∣ R > 0 ] × P { R > 0 } FDR=E[V/R|R>0]\times P\{R>0\} FDR=E[V/R∣R>0]×P{ R>0} 通俗理解,可以认为 F D R = Q = V / R = V / ( V + S ) FDR=Q=V/R=V/(V+S) FDR=Q=V/R=V/(V+S)。
综上,FWER(Family-wise error rate) 为多重假设检验中发现至少一个 I 类错误的概率,FDR(False discovery rate) 为多重假设检验中 I 类错误的比例。针对这两个变量,分别有 Adjusted FWER / Adjusted FDR,分别指 FWER 校正方法和 FDR 校正方法。两类校正方法都用来控制多重假设检验中犯 I 类错误的概率,使其低于显著性水平 α \alpha α 。FWER 校正有多种实现,其中最经典的是 Bonferroni correction;FDR 校正也有多种实现,其中最经典的是 Benjamini-Hochberg procedure。
在一次假设检验中,我们使用显著性水平 α \alpha α 和 p p p 值得出结论。显著性水平 α \alpha α 一般取0.05或0.01,可以保证一次假设检验中犯 I 类错误的概率和决策错误的风险小于 α \alpha α 。
但是在 m m m 次假设检验中,假设 m = 100 m=100 m=100 和 α = 0.01 \alpha=0.01 α=0.01 ,假设检验之间相互独立,不犯错误的概率为 ( 1 − 0.01 ) 100 = 36.6 % (1-0.01)^{100}=36.6\% (1−0.01)100=36.6% ,而至少犯一次错误的概率高达 P = 1 − ( 1 − 0.01 ) 100 = 1 − 0.366 = 63.4 % P=1-(1-0.01)^{100}=1-0.366=63.4\% P=1−(1−0.01)100=1−0.366=63.4%。举个实际的例子,假如有一种诊断艾滋病的试剂,试验验证其准确性为99%(每100次诊断就有一次false positive)。对于一个被检测的人来说(single test),这种准确性足够了。但对于医院来说(multiple test),这种准确性远远不够,因为每诊断10000个人,就会有100个非艾滋病病人被误诊为