最近在看各种算法的时候,都会涉及到各种各样的数字特征,比如在KNN中会涉及到众数的概念,KD中会涉及到中位数的概念,决策树中会涉及到期望的概念,本篇则主要对这些数字特征进行一下对比和总结。
如下是最简单的一张思维导图:
1、 平均数,期望:
用搜索引擎定义,平均数就是期望,因为计算方式和结果都是一样的。
比如掷骰子,投掷了8次,分别为:1,3,3,4,4,5,6,6
我们可以直接计算均值为 1 + 3 + 3 + 4 + 4 + 5 + 6 + 6 8 \frac{1+3+3+4+4+5+6+6}{8} 81+3+3+4+4+5+6+6=4.
但是对于期望而言,则是计算如下:一共6次,2出现的概率为3次;4出现的概率为3次;其它的数值为0次,所以2和4分别占据
1
2
\frac{1}{2}
21的概率。所以期望
E
=
1
∗
1
8
+
2
∗
0
+
3
∗
2
8
+
4
∗
2
8
+
5
∗
1
8
+
6
∗
2
8
=
4
E=1*\frac{1}{8}+2*0+3*\frac{2}{8}+4*\frac{2}{8}+5*\frac{1}{8}+6*\frac{2}{8}=4
E=1∗81+2∗0+3∗82+4∗82+5∗81+6∗82=4
如上计算,我们可以领悟到:均值,其实是针对实验观察到的特征样本而言的;期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。均值是一个统计量(对观察样本的统计),期望是一种概率论概念,是一个数学特征。
数学期望的计算公式为:
E
(
X
)
=
∑
i
=
1
n
x
i
p
i
E(X)=\sum_{i=1}^{n}x_ip_i
E(X)=i=1∑nxipi
2、期望,方差,标准差
偏差,方差,标准差都是在期望的基准上计算的。
- 方差:“期望值离散程度”的期望值
设期望值E(X)=μ,随机值X以大写字母表示。因为期望值并非是真实值,所以实际计算用x-u来判定其差距。定义这种偏差的方式有很多,|x-u|可能是最为直观的方法,但是落实到具体计算时,绝对值的存在绝对会带来诸多不便(分情况讨论的场景,对应的曲线包含折角而无法微分等)于是通常使用x-u的平方来解决这个问题。
V [ X ] ≡ E [ ( X − u ) 2 ] V[X]\equiv E[(X-u)^2] V[X]≡E[(X−u)2]
f ( x ) = { 如 果 X 的 取 值 正 巧 为 u , ( x − u ) 2 = 0 否 则 ( x − u ) 2 > 0 且 x 与 u 的 偏 差 越 大 , ( x − u ) 2 的 值 也 越 大 f(x)=\left\{ \begin{aligned} 如果X的取值正巧为u,(x-u)^2=0 \\ 否则(x-u)^2>0 \\ 且 x与u的偏差越大,(x-u)^2的值也越大 \end{aligned} \right. f(x)=⎩⎪⎨⎪⎧如果X的取值正巧为u,(x−u)2=0否则(x−u)2>0且x与u的偏差越大,(x−u)2的值也越大
对此计算如上掷骰子的方差值:
V [ X ] = [ ( 1 − 4 ) 2 + ( 3 − 4 ) 2 + ( 3 − 4 ) 2 + ( 4 − 4 ) 2 + ( 4 − 4 ) 2 + ( 5 − 4 ) 2 + ( 6 − 4 ) 2 + ( 6 − 4 ) 2 ] 8 = 2.5 V[X]=\frac{[(1-4)^2+(3-4)^2+(3-4)^2+(4-4)^2+(4-4)^2+(5-4)^2+(6-4)^2+(6-4)^2]}{8}=2.5 V[X]=8[(1−4)2+(3−4)2+(3−4)2+(4−4)2+(4−4)2+(5−4)2+(6−4)2+(6−4)2]=2.5
当通过期望值不能判定随机变量的离散程度的时候,我们则首要考虑的就是通过方差来计算,进而判定随机变量的离散程度。V[X]值越大,随机变量的值就越分散,值越小,随机变量的值越集中,
- 标准差:方差开根号
主要是为了能够和期望值相比较,方差只是单纯的想表达其离散程度,但是具体计算还是要回归现实(标准)的,这也是标准差出现的根本原因。比如X若表示长度,其方差就表示长度的平方,标准差则还同样表示长度,回归了标准。
σ ≡ V [ X ] \sigma\equiv\sqrt{V[X]} σ≡V[X]
所以同样也可以用σ的平方来标识方差。
σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \sigma^{2} = \frac{\sum\limits_{i=1}^{N}(X_{i}-\mu)^{2}}{N} σ2=Ni=1∑N(Xi−μ)2
3、平均数,中位数,众数
- 平均数是通过计算得到的,因此它会因每一个数据的变化而变化。
- 中位数是通过排序得到的,它不受最大、最小两个极端数值的影响
- 众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.
平均数应用最为广泛,用它作为一组数据的代表,比较可靠和稳定,它与这组数据中的每一个数据都有关系,能够最为充分地反映这组数据所包含的信息,在进行统计推断时有重要的作用;但容易受到极端数据的影响。
中位数在一组数据的数值排序中处于中间的位置,故其在统计学分析中也常常扮演着“分水岭”的角色,人们由中位数可以对事物的大体趋势进行判断和掌控。
众数着眼于对各数据出现的频数的考察,其大小仅与一组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,它的众数往往是我们关心的一种统计量。