机器学习系列【基础】概率论-数字特征

  最近在看各种算法的时候,都会涉及到各种各样的数字特征,比如在KNN中会涉及到众数的概念,KD中会涉及到中位数的概念,决策树中会涉及到期望的概念,本篇则主要对这些数字特征进行一下对比和总结。
如下是最简单的一张思维导图:
在这里插入图片描述

1、 平均数,期望:

  用搜索引擎定义,平均数就是期望,因为计算方式和结果都是一样的。
比如掷骰子,投掷了8次,分别为:1,3,3,4,4,5,6,6

我们可以直接计算均值为 1 + 3 + 3 + 4 + 4 + 5 + 6 + 6 8 \frac{1+3+3+4+4+5+6+6}{8} 81+3+3+4+4+5+6+6=4.

  但是对于期望而言,则是计算如下:一共6次,2出现的概率为3次;4出现的概率为3次;其它的数值为0次,所以2和4分别占据 1 2 \frac{1}{2} 21的概率。所以期望 E = 1 ∗ 1 8 + 2 ∗ 0 + 3 ∗ 2 8 + 4 ∗ 2 8 + 5 ∗ 1 8 + 6 ∗ 2 8 = 4 E=1*\frac{1}{8}+2*0+3*\frac{2}{8}+4*\frac{2}{8}+5*\frac{1}{8}+6*\frac{2}{8}=4 E=181+20+382+482+581+682=4
  如上计算,我们可以领悟到:均值,其实是针对实验观察到的特征样本而言的;期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。均值是一个统计量(对观察样本的统计),期望是一种概率论概念,是一个数学特征。
数学期望的计算公式为: E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^{n}x_ip_i E(X)=i=1nxipi

2、期望,方差,标准差

偏差,方差,标准差都是在期望的基准上计算的。

  • 方差:“期望值离散程度”的期望值
      设期望值E(X)=μ,随机值X以大写字母表示。因为期望值并非是真实值,所以实际计算用x-u来判定其差距。定义这种偏差的方式有很多,|x-u|可能是最为直观的方法,但是落实到具体计算时,绝对值的存在绝对会带来诸多不便(分情况讨论的场景,对应的曲线包含折角而无法微分等)于是通常使用x-u的平方来解决这个问题。
           V [ X ] ≡ E [ ( X − u ) 2 ] V[X]\equiv E[(X-u)^2] V[X]E[(Xu)2]
    f ( x ) = { 如 果 X 的 取 值 正 巧 为 u , ( x − u ) 2 = 0 否 则 ( x − u ) 2 > 0 且 x 与 u 的 偏 差 越 大 , ( x − u ) 2 的 值 也 越 大 f(x)=\left\{ \begin{aligned} 如果X的取值正巧为u,(x-u)^2=0 \\ 否则(x-u)^2>0 \\ 且 x与u的偏差越大,(x-u)^2的值也越大 \end{aligned} \right. f(x)=Xu,(xu)2=0(xu)2>0xu(xu)2
    对此计算如上掷骰子的方差值:

     V [ X ] = [ ( 1 − 4 ) 2 + ( 3 − 4 ) 2 + ( 3 − 4 ) 2 + ( 4 − 4 ) 2 + ( 4 − 4 ) 2 + ( 5 − 4 ) 2 + ( 6 − 4 ) 2 + ( 6 − 4 ) 2 ] 8 = 2.5 V[X]=\frac{[(1-4)^2+(3-4)^2+(3-4)^2+(4-4)^2+(4-4)^2+(5-4)^2+(6-4)^2+(6-4)^2]}{8}=2.5 V[X]=8[(14)2+(34)2+(34)2+(44)2+(44)2+(54)2+(64)2+(64)2]=2.5

  当通过期望值不能判定随机变量的离散程度的时候,我们则首要考虑的就是通过方差来计算,进而判定随机变量的离散程度。V[X]值越大,随机变量的值就越分散,值越小,随机变量的值越集中,

  • 标准差:方差开根号
      主要是为了能够和期望值相比较,方差只是单纯的想表达其离散程度,但是具体计算还是要回归现实(标准)的,这也是标准差出现的根本原因。比如X若表示长度,其方差就表示长度的平方,标准差则还同样表示长度,回归了标准。
           σ ≡ V [ X ] \sigma\equiv\sqrt{V[X]} σV[X]
    所以同样也可以用σ的平方来标识方差。
           σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \sigma^{2} = \frac{\sum\limits_{i=1}^{N}(X_{i}-\mu)^{2}}{N} σ2=Ni=1N(Xiμ)2

3、平均数,中位数,众数

  • 平均数是通过计算得到的,因此它会因每一个数据的变化而变化。
  • 中位数是通过排序得到的,它不受最大、最小两个极端数值的影响
  • 众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.

  平均数应用最为广泛,用它作为一组数据的代表,比较可靠和稳定,它与这组数据中的每一个数据都有关系,能够最为充分地反映这组数据所包含的信息,在进行统计推断时有重要的作用;但容易受到极端数据的影响。
  中位数在一组数据的数值排序中处于中间的位置,故其在统计学分析中也常常扮演着“分水岭”的角色,人们由中位数可以对事物的大体趋势进行判断和掌控。
  众数着眼于对各数据出现的频数的考察,其大小仅与一组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,它的众数往往是我们关心的一种统计量。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值