一文快速回顾_机器学习概率与统计基础

最新推荐文章于 2022-06-07 11:17:48 发布
innerVoi
最新推荐文章于 2022-06-07 11:17:48 发布
阅读量152
点赞数
分类专栏： machine learning 文章标签：机器学习概率论
本文链接：https://blog.csdn.net/qq_41977459/article/details/105262512
版权
machine learning 专栏收录该内容
10 篇文章 1 订阅
订阅专栏
                    
                    1.随机变量 
随机事件的数量表现；随机变量可以是离散的或者连续的。
离散随机变量是指拥有有限个或者可列无限多个状态的随机变量。
连续随机变量是指变量值不可随机列举出来的随机变量，一般取实数值。
随机变量通常用概率分布来指定它的每个状态的可能性。
 
2.常见概率分布 
伯努利分布 
  伯努利试验：只可能有两种结果的单次随机试验。又称0-1分布，单个二值型离散随机变量的分布。
 
            P 
           
            ( 
           
            X 
           
            = 
           
            1 
           
            ) 
           
            = 
           
            p 
           
            , 
           
            P 
           
            ( 
           
            X 
           
            = 
           
            0 
           
            ) 
           
            = 
           
            1 
           
            − 
           
            p 
           
           P(X=1)=p, P(X=0)=1-p 
          
       P(X=1)=p,P(X=0)=1−p
 
二项分布 
  即重复n次伯努利试验，各试验之间都相互独立。
如果每次试验时，事件发生的概率为p，不发生的概率为1-p，则n次重复独立试验中事件发生k次的概率为 
        
            P 
           
            ( 
           
            X 
           
            = 
           
            k 
           
            ) 
           
            = 
           
             C 
            
             n 
            
             k 
            
             p 
            
             k 
            
            ( 
           
            1 
           
            − 
           
            p 
           
             ) 
            
              n 
             
              − 
             
              k 
             
           P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} 
          
       P(X=k)=Cnk​pk(1−p)n−k
 
均匀分布 
  又称矩形分布，在给定长度间隔[a, b]内的分布概率是等可能的，均匀分布由参数a, b定义，概率密度为
  
             p 
            
             ( 
            
             x 
            
             ) 
            
             = 
            
              { 
             
                   1 
                  
                    b 
                   
                    − 
                   
                    a 
                   
                   i 
                  
                   f 
                  
                   a 
                  
                   ⩽ 
                  
                   x 
                  
                   ⩽ 
                  
                   b 
                  
                  0 
                 
                   e 
                  
                   l 
                  
                   s 
                  
                   e 
                  
            p(x)=\left\{\begin{matrix} \frac{1}{b-a} & if a\leqslant x \leqslant b\\ 0 & else \end{matrix}\right. 
           
        p(x)={b−a1​0​ifa⩽x⩽belse​
累积概率分布函数
  
             p 
            
             ( 
            
             X 
            
             ≤ 
            
             x 
            
             ) 
            
             = 
            
              ∫ 
             
               − 
              
               ∞ 
              
              x 
             
             p 
            
             ( 
            
             x 
            
             ) 
            
             d 
            
             x 
            
             = 
            
              { 
             
                  0 
                 
                    for  
                  
                   x 
                  
                   < 
                  
                   a 
                  
                    x 
                   
                    − 
                   
                    a 
                   
                    b 
                   
                    − 
                   
                    a 
                   
                    for  
                  
                   a 
                  
                   ≤ 
                  
                   x 
                  
                   ≤ 
                  
                   b 
                  
                  1 
                 
                    for  
                  
                   x 
                  
                   ≥ 
                  
                   b 
                  
            p(X\leq x)=\int_{-\infty }^{x}p(x)dx=\begin{cases} 0 & \text{ for } x<a \\ \frac{x-a}{b-a} & \text{ for } a\leq x \leq b\\ 1 & \text{ for } x \geq b \end{cases} 
           
        p(X≤x)=∫−∞x​p(x)dx=⎩⎪⎨⎪⎧​0b−ax−a​1​ for x<a for a≤x≤b for x≥b​
 
高斯分布 
  又称正态分布，是实数中最常用的分布。
由均值 
        
            μ 
           
           \mu 
          
       μ和标准差 
        
            σ 
           
           \sigma 
          
       σ决定其分布，概率密度函数为
  
            p 
           
            ( 
           
            x 
           
            ) 
           
            = 
           
             1 
            
                2 
               
                π 
               
              σ 
             
             e 
            
              − 
             
                ( 
               
                x 
               
                − 
               
                μ 
               
                 ) 
                
                 2 
                
                2 
               
                 σ 
                
                 2 
                
           p(x)=\frac{1}{\sqrt{2 \pi}\sigma}e^{- \frac {(x- \mu)^{2}}{2 \sigma^{2}}} 
          
       p(x)=2π 
                       
                      ​σ1​e−2σ2(x−μ)2​
 
            σ 
           
           \sigma 
          
       σ越大图像越高耸*
 
指数分布 
  常用来表示独立随机事件发生的时间间隔。
参数为 
        
            λ 
           
           \lambda 
          
       λ的指数分布概率密度
  
            p 
           
            ( 
           
            x 
           
            ) 
           
            = 
           
             { 
            
                  λ 
                 
                   e 
                  
                    − 
                   
                    λ 
                   
                    x 
                   
                  x 
                 
                  ≥ 
                 
                  0 
                 
                 0 
                
                  x 
                 
                  < 
                 
                  0 
                 
           p(x)=\begin{cases} \lambda e^{-\lambda x} & x\geq 0 \\ 0 & x<0 \end{cases} 
          
       p(x)={λe−λx0​x≥0x<0​
累积概率分布函数
  
            P 
           
            ( 
           
            X 
           
            ≤ 
           
            x 
           
            ) 
           
            = 
           
             ∫ 
            
              − 
             
              ∞ 
             
             x 
            
            p 
           
            ( 
           
            x 
           
            ) 
           
            d 
           
            x 
           
            = 
           
             { 
            
                  1 
                 
                  − 
                 
                   e 
                  
                    − 
                   
                    λ 
                   
                    x 
                   
                  x 
                 
                  ≥ 
                 
                  0 
                 
                 0 
                
                  x 
                 
                  < 
                 
                  0 
                 
           P(X\leq x)=\int_{-\infty}^{x}p(x)dx= \begin{cases} 1-e^{-\lambda x}& x\geq0 \\ 0 & x<0 \end{cases} 
          
       P(X≤x)=∫−∞x​p(x)dx={1−e−λx0​x≥0x<0​
指数分布的重要特征是无记忆性。
 
3.其他相关知识 
条件概率 
  事件X在事件Y发生的条件下发生的概率。 
        
            P 
           
            ( 
           
            X 
           
            ∣ 
           
            Y 
           
            ) 
           
           P(X|Y) 
          
       P(X∣Y)
 
联合概率 
  表示两个事件X和Y共同发生的概率。 
        
            P 
           
            ( 
           
            X 
           
            , 
           
            Y 
           
            ) 
           
           P(X,Y) 
          
       P(X,Y)
条件概率和联合概率的性质
  
            P 
           
            ( 
           
            Y 
           
            ∣ 
           
            X 
           
            ) 
           
            = 
           
              P 
             
              ( 
             
              Y 
             
              , 
             
              X 
             
              ) 
             
              P 
             
              ( 
             
              X 
             
              ) 
             
            , 
           
            P 
           
            ( 
           
            X 
           
            ) 
           
            > 
           
            0 
           
           P(Y|X)=\frac {P(Y,X)} {P(X)},P(X)>0 
          
       P(Y∣X)=P(X)P(Y,X)​,P(X)>0
 
先验概率 
  根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现
 
后验概率 
  指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”。
 
全概率公式 
   
            P 
           
            ( 
           
            B 
           
            ) 
           
            = 
           
             ∑ 
            
              i 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             A 
            
             i 
            
            ) 
           
            P 
           
            ( 
           
            B 
           
            ∣ 
           
             A 
            
             i 
            
            ) 
           
           P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) 
          
       P(B)=∑i=1n​P(Ai​)P(B∣Ai​)
 
贝叶斯公式 
   
            P 
           
            ( 
           
             A 
            
             i 
            
            ∣ 
           
            B 
           
            ) 
           
            = 
           
              P 
             
              ( 
             
              B 
             
              ∣ 
             
               A 
              
               i 
              
              ) 
             
              P 
             
              ( 
             
               A 
              
               i 
              
              ) 
             
              P 
             
              ( 
             
              B 
             
              ) 
             
           P(A_{i}|B)=\frac {P(B|A_{i})P(A_{i})} {P(B)} 
          
       P(Ai​∣B)=P(B)P(B∣Ai​)P(Ai​)​
 
熵 
  信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量
假定当前样本集合X中第i类样本所占的比列为 
        
             p 
            
             i 
            
           p_{i} 
          
       pi​，则X的信息熵定义为
  
            H 
           
            ( 
           
            X 
           
            ) 
           
            = 
           
            − 
           
             ∑ 
            
              i 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            ) 
           
            l 
           
            o 
           
             g 
            
             2 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            ) 
           
           H(X)=-\sum_{i=1}^{n}P(x_{i})log_{2}P(x_{i}) 
          
       H(X)=−∑i=1n​P(xi​)log2​P(xi​)
联合熵：
  
            H 
           
            ( 
           
            X 
           
            , 
           
            Y 
           
            ) 
           
            = 
           
            − 
           
             ∑ 
            
              i 
             
              = 
             
              1 
             
             n 
            
             ∑ 
            
              j 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            , 
           
             y 
            
             i 
            
            ) 
           
            l 
           
            o 
           
             g 
            
             2 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            , 
           
             y 
            
             i 
            
            ) 
           
           H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i},y_{i}) 
          
       H(X,Y)=−∑i=1n​∑j=1n​P(xi​,yi​)log2​P(xi​,yi​)
条件熵：
  
            H 
           
            ( 
           
            X 
           
            ∣ 
           
            Y 
           
            ) 
           
            = 
           
            − 
           
             ∑ 
            
              i 
             
              = 
             
              1 
             
             n 
            
             ∑ 
            
              j 
             
              = 
             
              1 
             
             n 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            , 
           
             y 
            
             i 
            
            ) 
           
            l 
           
            o 
           
             g 
            
             2 
            
            P 
           
            ( 
           
             x 
            
             i 
            
            ∣ 
           
             y 
            
             i 
            
            ) 
           
           H(X|Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i}|y_{i}) 
          
       H(X∣Y)=−∑i=1n​∑j=1n​P(xi​,yi​)log2​P(xi​∣yi​)
 H(X|Y)=H(X,Y)-H(X)
 互信息： 
        
            I 
           
            ( 
           
            X 
           
            ; 
           
            Y 
           
            ) 
           
            = 
           
            H 
           
            ( 
           
            X 
           
            ) 
           
            + 
           
            H 
           
            ( 
           
            Y 
           
            ) 
           
            − 
           
            H 
           
            ( 
           
            X 
           
            , 
           
            Y 
           
            ) 
           
           I(X;Y)=H(X)+H(Y)-H(X,Y) 
          
       I(X;Y)=H(X)+H(Y)−H(X,Y)
相对熵 
    又称互熵、交叉熵、KL散度、信息增益
描述两个概率分布P和Q差异的一种方法，记做D(P||Q)
在信息论中D(P||Q)表示用概率分布Q来拟合真实分布P时，产生的信息表达的损耗，其中P表示信源的真实分布，Q表示P的近似分布。即使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数
离散形式: 
          
              D 
             
              ( 
             
              P 
             
              ∣ 
             
              ∣ 
             
              Q 
             
              ) 
             
              = 
             
              ∑ 
             
              P 
             
              ( 
             
              x 
             
              ) 
             
              l 
             
              o 
             
              g 
             
                P 
               
                ( 
               
                x 
               
                ) 
               
                Q 
               
                ( 
               
                x 
               
                ) 
               
             D(P||Q)=\sum P(x)log\frac {P(x)} {Q(x)} 
            
         D(P∣∣Q)=∑P(x)logQ(x)P(x)​
连续形式: 
          
              D 
             
              ( 
             
              P 
             
              ∣ 
             
              ∣ 
             
              Q 
             
              ) 
             
              = 
             
              ∫ 
             
              P 
             
              ( 
             
              x 
             
              ) 
             
              l 
             
              o 
             
              g 
             
                P 
               
                ( 
               
                x 
               
                ) 
               
                Q 
               
                ( 
               
                x 
               
                ) 
               
             D(P||Q)=\int P(x)log\frac {P(x)} {Q(x)} 
            
         D(P∣∣Q)=∫P(x)logQ(x)P(x)​
 
常用统计量 
  期望：试验中每次可能结果的概率乘以其结果的总和，反映随机变量平均值的大小。 
    离散随机变量： 
          
              E 
             
              ( 
             
              X 
             
              ) 
             
              = 
             
               ∑ 
              
                k 
               
                = 
               
                1 
               
               n 
              
               x 
              
               k 
              
              P 
             
              ( 
             
               x 
              
               k 
              
              ) 
             
             E(X)=\sum _{k=1}^{n}x_{k}P(x_{k}) 
            
         E(X)=∑k=1n​xk​P(xk​)
连续随机变量： 
          
               ∫ 
              
                − 
               
                ∞ 
               
                + 
               
                ∞ 
               
              x 
             
              p 
             
              ( 
             
              x 
             
              ) 
             
              d 
             
              x 
             
             \int_{-\infty}^{+\infty}xp(x)dx 
            
         ∫−∞+∞​xp(x)dx
 
方差：用来衡量随机变量和数学期望之间的偏离程度； 
        
            V 
           
            a 
           
            r 
           
            ( 
           
            X 
           
            ) 
           
            = 
           
            E 
           
             [ 
            
             x 
            
             − 
            
             E 
            
             ( 
            
             x 
            
             ) 
            
              ] 
             
              2 
             
            = 
           
            E 
           
            ( 
           
             x 
            
             2 
            
            ) 
           
            − 
           
            [ 
           
            E 
           
            ( 
           
            x 
           
            ) 
           
             ] 
            
             2 
            
           Var(X)=E{[x-E(x)]^{2}}=E(x^{2})-[E(x)]^{2} 
          
       Var(X)=E[x−E(x)]2=E(x2)−[E(x)]2
协方差：衡量两个随机变量X和Y直接的总体误差，计算过程为：
 Cov(X,Y)=E{[x-E(x)][y-E(y)]}=E(xy)-E(x)E(y)