量化策略开发,高质量社群,交易思路分享等相关内容
一、相关性和平稳性
1、相关性
(1)皮尔森相关系数
皮尔森相关系数是最常见、最常用的一个相关系数计算方法。作为衡量两个随机变量x和y线性相关程度的重要指标,在这里不再赘述。
(2)斯皮尔曼相关系数
斯皮尔曼相关系数是基于随机变量秩的相关系数,该方法基于秩的理论,不需要假设变量之间是线性关系,也不需要对原始数据直接进行计算,而是将原始数据的秩作为变量计算斯皮尔曼相关系数。这句话看着挺拗口,并且抽象的,下面我会解释。
在给定一组数对(X1, Y1),...,(Xn,Yn)之后,要计算他们所代表的二元变量x和y的相关性,首先将x和y的变量值进行排序,分别得各自的秩统计量(r1,s1)...(rn,sn)。
斯皮尔曼相关系数是一种非参数相关分析方法,用于测量两变量之间的monotonic相关关系。在统计学和相关分析中,monotonic是指两个变量之间的关系呈单调变化趋势。也就是说,当一个变量增加时,另一个变量也增加;或当一个变量减少时,另一个变量也减少。
monotonic关系可以是:
1、 正相关—— 两个变量均增加或减少。例如:身高和体重。
2、 负相关—— 一个变量增加而另一个变量减少。
我们举例来说,价格和需求量,Spearman相关系数就是用于测量两个变量之间的monotonic相关关系的统计指数。因为它通过变量的rank比较两变量的协同变化,而不受变量的线性相关性影响。相比之下,Pearson相关系数测量的是线性相关关系,它要求变量满足正态分布,且两变量间存在线性关联。所以,总结来说:Monotonic相关关系是指两个变量的变化趋势是单调的,要么同向增加要么同向减少。它可以是正相关或负相关。- Spearman相关系数用于测量monotonic相关关系。- Pearson相关系数用于测量线性相关关系,它要求变量满足正态分布。- Monotonic相关关系概念更广,线性相关关系属于monotonic相关关系的一种特例。
可以用这个客观但可能不是很严谨的图来理解一下。
它的计算原理和逻辑如下:
-
对数据集中的每个样本进行rank转换。也就是将每个变量的值映射到其相对大小的排名上,排名从1开始。
-
计算每个样本在两个变量上的rank差值的平方和。
-
计算rank差值的平方和之和。
-
计算每个变量的rank值之和。
-
将上述求和结果代入Spearman相关系数的公式:ρ = 1 - 6*∑d2 / (n(n2-1))这里ρ表示Spearman相关系数,d表示rank差值,n表示样本量。
举例说明:
有5个样本,变量x的观测值为[15, 20, 40, 10, 50],变量y的观测值为[20, 10, 60, 5, 30]。
-
对两个变量的观测值进行rank转换:x: [15, 20, 40, 10, 50] => [2, 3, 4, 1, 5]y: [20, 10, 60, 5, 30] => [3, 2, 5, 1, 4]
-
计算rank差值的平方和:
(2-3)2 = 1 (3-2)2 = 1
(4-5)2 = 1 (1-1)2 = 0
(5-4)2 = 1
∑d2 = 1 + 1 + 1 + 0 + 1 = 4
-
x的rank和 = 2 + 3 + 4 + 1 + 5 = 15
y的rank和 = 3 + 2 + 5 + 1 + 4 = 154.
-
ρ = 1 - 6*4 / 5*(5^2 - 5) = 1 - 0.2 = 0.8所以,在对数据分析过程中出现的错误进行修正后,x和y之间的Spearman相关系数ρ = 0.8。这表明x和y之间存在中等程度的monotonic相关关系。当x的值增大时,y的值也呈增大变化的趋势。
Spearman相关系数计算步骤:
-
对两个变量的观测值进行rank转换,将值从小到大排序并分配排名
-
计算rank差值的平方和∑d2
-
计算两个变量的rank值之和
-
将结果代入Spearman相关系数公式:ρ = 1 - 6*∑d2 / (n*(n^2-1)) ρ的值在0到1之间,值越大表示两个变量之间的monotonic相关关系越强。
(3)肯德尔相关系数
肯德尔相关系数是一种非参数相关分析方法,用于测量两个变量之间的秩相关。它通过计算变量的一致对数和非一致对数来度量两变量之间的相关性。与Pearson相关系数不同,肯德尔相关系数不要求变量遵循任何特定的分布,也不要求线性关系。它通过变量观测值的排列来判断变量变化的一致性,因此也称为秩相关系数。
在给定一组数对