阅读一些传统方法(基于SVM)的数字取证方案常常运用到各种统计量,故用该文章记录下。
好的,以下是包括均值(Mean)、方差(Variance)、偏度(Skewness)、峰度(Kurtosis)和能量(Energy)在内的常用统计量及其定义、计算公式和用途:
1. 均值(Mean)
定义:数据集中所有值的总和除以值的个数。
计算公式:
μ
=
1
N
∑
i
=
1
N
x
i
\mu = \frac{1}{N}\sum_{i=1}^{N}x_i
μ=N1i=1∑Nxi
其中,
μ
\mu
μ是均值,
N
N
N是数据点个数,
x
i
x_i
xi是第
i
i
i个数据点。
用途:均值用于衡量数据的中心位置,是最常用的集中趋势测量。
2. 方差(Variance)
定义:数据点与均值之间离差的平方的平均值。
计算公式:
σ
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
σ2=N1i=1∑N(xi−μ)2
其中,
σ
2
\sigma^2
σ2是方差,
μ
\mu
μ是均值,
N
N
N是数据点个数,
x
i
x_i
xi是第
i
i
i个数据点。
用途:方差用于衡量数据的离散程度,反映数据点围绕均值的分布情况。
3. 偏度(Skewness)
定义:衡量数据分布的对称性。正偏度表示数据右偏,负偏度表示数据左偏。
计算公式:
S
k
e
w
n
e
s
s
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
3
(
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
)
3
/
2
Skewness = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^3}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^{3/2}}
Skewness=(N1∑i=1N(xi−μ)2)3/2N1∑i=1N(xi−μ)3
用途:偏度用于描述数据的分布形状,识别分布是否偏离正态分布。
4. 峰度(Kurtosis)
定义:衡量数据分布的尾部厚度。高峰度表示数据有较重的尾部(极值),低峰度表示数据尾部较轻。
计算公式:
K
u
r
t
o
s
i
s
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
4
(
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
)
2
−
3
Kurtosis = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^4}{\left(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\right)^2} - 3
Kurtosis=(N1∑i=1N(xi−μ)2)2N1∑i=1N(xi−μ)4−3
用途:峰度用于描述数据分布的尖峰程度,识别极端值的存在。
5. 能量(Energy)
定义:信号或数据的能量,通常用于信号处理领域。
计算公式:
E
n
e
r
g
y
=
∑
i
=
1
N
x
i
2
Energy = \sum_{i=1}^{N}x_i^2
Energy=i=1∑Nxi2
用途:能量用于衡量信号的强度,常用于信号分析和处理。
6. 中位数(Median)
定义:数据集的中间值。
计算公式:将数据按从小到大的顺序排列,取中间值(偶数个数时取中间两个数的平均值)。
用途:衡量数据的中心位置,适用于含有异常值的数据集。
7. 众数(Mode)
定义:数据集中出现频率最高的值。
计算公式:找出出现次数最多的数值。
用途:识别数据集中最常见的值,适用于分类数据。
8. 标准差(Standard Deviation)
定义:方差的平方根。
计算公式:
σ
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}
σ=N1i=1∑N(xi−μ)2
用途:衡量数据的离散程度,反映数据点围绕均值的分布情况。
9. 四分位数(Quartiles)
定义:将数据集按四等分分成的三个点。
计算公式:
- Q1:数据集25%位置的值。
- Q2:中位数。
- Q3:数据集75%位置的值。
用途:描述数据集的分布情况,用于箱线图中识别异常值。
10. 四分位距(Interquartile Range, IQR)
定义:第三四分位数与第一四分位数之间的差值。
计算公式:
I
Q
R
=
Q
3
−
Q
1
IQR = Q3 - Q1
IQR=Q3−Q1
用途:衡量数据的变异程度,不受异常值影响。
11. 范围(Range)
定义:数据集中最大值与最小值之间的差值。
计算公式:
R
a
n
g
e
=
max
(
x
)
−
min
(
x
)
Range = \max(x) - \min(x)
Range=max(x)−min(x)
用途:衡量数据的整体分布跨度。
12. 变异系数(Coefficient of Variation, CV)
定义:标准差与均值的比值,通常用百分比表示。
计算公式:
C
V
=
σ
μ
×
100
%
CV = \frac{\sigma}{\mu} \times 100\%
CV=μσ×100%
用途:比较不同数据集的变异程度。
13. 自相关(Autocorrelation)
定义:同一变量在不同时间点上的值之间的相关性。
计算公式(以时滞k为例):
r
k
=
∑
i
=
1
N
−
k
(
x
i
−
x
ˉ
)
(
x
i
+
k
−
x
ˉ
)
∑
i
=
1
N
(
x
i
−
x
ˉ
)
2
r_k = \frac{\sum_{i=1}^{N-k} (x_i - \bar{x})(x_{i+k} - \bar{x})}{\sum_{i=1}^{N} (x_i - \bar{x})^2}
rk=∑i=1N(xi−xˉ)2∑i=1N−k(xi−xˉ)(xi+k−xˉ)
用途:时间序列分析中检测数据的周期性或重复模式。
14. 相关系数(Correlation Coefficient)
定义:衡量两个变量之间线性关系的强度和方向,取值范围为-1到1。
计算公式(皮尔逊相关系数):
r
=
∑
i
=
1
N
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
N
(
x
i
−
x
ˉ
)
2
∑
i
=
1
N
(
y
i
−
y
ˉ
)
2
r = \frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N}(x_i - \bar{x})^2 \sum_{i=1}^{N}(y_i - \bar{y})^2}}
r=∑i=1N(xi−xˉ)2∑i=1N(yi−yˉ)2∑i=1N(xi−xˉ)(yi−yˉ)
用途:分析两个变量之间的关系强度和方向。
15. 熵(Entropy)
定义:衡量随机变量不确定性的量度。
计算公式:
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
P
(
x
i
)
H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i)
H(X)=−i=1∑nP(xi)logP(xi)
用途:评估数据的随机性或复杂性。
这些统计量在数据分析中起到重要作用,帮助我们理解和解释数据的各种特征。