数学建模——概率论统计模型的基本理论

最新推荐文章于 2023-09-21 23:21:55 发布
ZeroRains
最新推荐文章于 2023-09-21 23:21:55 发布
阅读量2.7k
点赞数 3
分类专栏：数模学习文章标签：聚类机器学习算法
本文链接：https://blog.csdn.net/kiminoamae/article/details/107681900
版权
数模学习专栏收录该内容
3 篇文章 2 订阅
订阅专栏
                    
                    一、蒙特卡洛方法 
蒙特卡洛的一般原理：处理缺乏实验数据的问题，一般会用蒙特卡洛方法来产生所需要的实验数据。
蒙特卡洛方法结题的基本步骤： 
  确定所要模拟的目标以及实现这些目标的随机变量，一般情况下，目标就是这些随机变量的期望
找到原问题中随机变量的分布规律
大量抽取随机样本以模拟原问题的随机量
求出随机样本的样本平均值
 
二、马尔科夫方法 
马尔科夫过程：马尔科夫过程的特性在于未来的演变不依赖于它过去的演变，这种性质被称为无后效性
转移概率矩阵：马尔科夫链 
      
          { 
         
           X 
          
           n 
          
          , 
         
          n 
         
          ≥ 
         
          0 
         
          } 
         
         \left\{X_{n}, n \geq 0\right\} 
        
     {Xn​,n≥0}在时刻m处于状态i的条件下，在时刻m+n转移的状态j的条件概率记为n步转移概率，记为 
      
          { 
         
           X 
          
            m 
           
            + 
           
            n 
           
          = 
         
          j 
         
          ∣ 
         
          , 
         
           X 
          
           m 
          
          = 
         
          i 
         
          } 
         
         \left\{X_{m+n} = j|, X_m=i\right\} 
        
     {Xm+n​=j∣,Xm​=i}
显然有结论： 
      
           ∑ 
          
            j 
           
            ∈ 
           
            E 
           
          P 
         
           ( 
          
            X 
           
             m 
            
             + 
            
             n 
            
           = 
          
           j 
          
           ∣ 
          
            X 
           
            m 
           
           = 
          
           i 
          
           ) 
          
          = 
         
          1 
         
         \sum_{j \in E} P\left(X_{m+n}=j \mid X_{m}=i\right)=1 
        
     ∑j∈E​P(Xm+n​=j∣Xm​=i)=1
 
三、逻辑回归方法 
在线性回归的基础上，选择一个非线性函数，从而使得我们的线性模型转化成介于0-1或者-1~1之间的一个数据，从而对连续型数据离散化，达到二分类的效果
逻辑回归获得的数据我们可能会得到一个0~1之间的数据，他表示的是是正类的概率
逻辑回归的响应变量：
 
          logit 
         
          ⁡ 
         
          ( 
         
          p 
         
          ) 
         
          = 
         
          ln 
         
          ⁡ 
         
           ( 
          
            p 
           
             1 
            
             − 
            
             p 
            
           ) 
          
         \operatorname{logit}(p)=\ln \left(\frac{p}{1-p}\right) 
        
     logit(p)=ln(1−pp​)
p(1-p)是用来描述时间发生强度的统计指标，称为优势
 
四、聚类分析方法 
聚类分析过程：根据数据样本的性质，将具有相近特质的样品或变量分在一组，既可以根据不同组的特征进行不同的处理，也可以对同组数据进行更进一步的分析
Q型聚类：对样本进行分类处理，距离由样本相似性来度量 
  闵可夫斯基距离： 
        
            d 
           
             ( 
            
              x 
             
              i 
             
             , 
            
              x 
             
              j 
             
             ) 
            
            = 
           
              ( 
             
               ∑ 
              
                k 
               
                = 
               
                1 
               
               d 
              
                ∣ 
               
                 x 
                
                  i 
                 
                  k 
                 
                − 
               
                 x 
                
                  j 
                 
                  k 
                 
                ∣ 
               
               q 
              
              ) 
             
              1 
             
              q 
             
           d\left(x_{i}, x_{j}\right)=\left(\sum_{k=1}^{d}\left|x_{i k}-x_{j k}\right|^{q}\right)^{\frac{1}{q}} 
          
       d(xi​,xj​)=(∑k=1d​∣xik​−xjk​∣q)q1​
当q=1时，称绝对距离，当q=2，称欧式距离
马氏距离：  
        
             d 
            
              i 
             
              j 
             
             2 
            
            ( 
           
            M 
           
            ) 
           
            = 
           
              ( 
             
               X 
              
               i 
              
              − 
             
               X 
              
               j 
              
              ) 
             
             ′ 
            
             Σ 
            
              − 
             
              1 
             
             ( 
            
              X 
             
              i 
             
             − 
            
              X 
             
              j 
             
             ) 
            
           d_{i j}^{2}(M)=\left(X_{i}-X_{j}\right)^{\prime} \Sigma^{-1}\left(X_{i}-X_{j}\right) 
          
       dij2​(M)=(Xi​−Xj​)′Σ−1(Xi​−Xj​)
 
R型聚类：对变量进行分类处理，距离由变量相似性来度量 
  用相关系数或者夹角余弦来评估
夹角余弦： 
        
            cos 
           
            ⁡ 
           
             θ 
            
              i 
             
              j 
             
            = 
           
               ∑ 
              
                k 
               
                = 
               
                1 
               
               p 
              
               x 
              
                i 
               
                k 
               
               x 
              
                j 
               
                k 
               
                 ∑ 
                
                  k 
                 
                  = 
                 
                  1 
                 
                 p 
                
                 x 
                
                  i 
                 
                  k 
                 
                 2 
                
                 ∑ 
                
                  k 
                 
                  = 
                 
                  1 
                 
                 p 
                
                 x 
                
                  j 
                 
                  k 
                 
                 2 
                
           \cos \theta_{i j}=\frac{\sum_{k=1}^{p} x_{i k} x_{j k}}{\sqrt{\sum_{k=1}^{p} x_{i k}^{2}} \sqrt{\sum_{k=1}^{p} x_{j k}^{2}}} 
          
       cosθij​=∑k=1p​xik2​ 
                       
                      ​∑k=1p​xjk2​ 
                       
                      ​∑k=1p​xik​xjk​​
 
K均值聚类
 K均值聚类首先人为确定分类数，起步于一个初始化的分类，然后通过不断的迭代把数据在不同类别之间移动，直到最后达到预定的分类数为止。 
  第一步：将所有的样本分成K个初始类
第二步：逐一计算每一样本到各个类别中心点的距离，把各个样本按照距离最近的原则归入各个类别，并计算形成的中心点
第三步：按照新的位置，重新计算每一个样本距离新的类别中心点的距离，并重新进行归类，更新类别中心点
第四步：重复第三步，直到达到一定的收敛标准或者达到分析者事先指定的迭代次数为止