《数学之美》阅读笔记（持续更新……）

最新推荐文章于 2019-06-07 13:28:39 发布
==樛木==
最新推荐文章于 2019-06-07 13:28:39 发布
阅读量237
点赞数
分类专栏：知识补充文章标签：数学之美阅读笔记
本文链接：https://blog.csdn.net/weixin_38493025/article/details/84375341
版权
知识补充专栏收录该内容
24 篇文章 3 订阅
订阅专栏
                    
                    第5章：隐含马尔科夫模型HMM 
通信的本质就是一个编解码和传输的过程。NLP对应通信系统中的解码问题。即在已知接收端的观测信号 
      
           o 
          
           1 
          
          , 
         
           o 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
         o_1,o_2,... 
        
     o1​,o2​,...的情况下，推断出令条件概率 
      
          P 
         
          ( 
         
           s 
          
           1 
          
          , 
         
           s 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
          ∣ 
         
           o 
          
           1 
          
          , 
         
           o 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
          ) 
         
         P(s_1,s_2,...|o_1,o_2,...) 
        
     P(s1​,s2​,...∣o1​,o2​,...)达到最大值的那个信息串 
      
           s 
          
           1 
          
          , 
         
           s 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
         s_1,s_2,... 
        
     s1​,s2​,...也就是信号源发送的信息。 
       
             (5-1) 
            
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              = 
             
              A 
             
              r 
             
              g 
             
               max 
              
               ⁡ 
              
                a 
               
                l 
               
                l 
               
                 s 
                
                 1 
                
                , 
               
                 s 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
              P 
             
              ( 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ∣ 
             
               o 
              
               1 
              
              , 
             
               o 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
              = 
             
              A 
             
              r 
             
              g 
             
               max 
              
               ⁡ 
              
                a 
               
                l 
               
                l 
               
                 s 
                
                 1 
                
                , 
               
                 s 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
                P 
               
                ( 
               
                 o 
                
                 1 
                
                , 
               
                 o 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
                ∣ 
               
                 s 
                
                 1 
                
                , 
               
                 s 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
                ) 
               
                P 
               
                ( 
               
                 s 
                
                 1 
                
                , 
               
                 s 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
                ) 
               
                P 
               
                ( 
               
                 o 
                
                 1 
                
                , 
               
                 o 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
                ) 
               
              ⇔ 
             
              A 
             
              r 
             
              g 
             
               max 
              
               ⁡ 
              
                a 
               
                l 
               
                l 
               
                 s 
                
                 1 
                
                , 
               
                 s 
                
                 2 
                
                , 
               
                . 
               
                . 
               
                . 
               
              P 
             
              ( 
             
               o 
              
               1 
              
              , 
             
               o 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ∣ 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
              P 
             
              ( 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
          s_1,s_2,...=Arg\max_{all s_1,s_2,...} P(s_1,s_2,...|o_1,o_2,...)=Arg\max_{all s_1,s_2,...} \frac{P(o_1,o_2,...|s_1,s_2,...)P(s_1,s_2,...)}{P(o_1,o_2,...)}\\\Leftrightarrow Arg\max_{all s_1,s_2,...} P(o_1,o_2,...|s_1,s_2,...)P(s_1,s_2,...)\quad \tag{5-1} 
         
      s1​,s2​,...=Argalls1​,s2​,...max​P(s1​,s2​,...∣o1​,o2​,...)=Argalls1​,s2​,...max​P(o1​,o2​,...)P(o1​,o2​,...∣s1​,s2​,...)P(s1​,s2​,...)​⇔Argalls1​,s2​,...max​P(o1​,o2​,...∣s1​,s2​,...)P(s1​,s2​,...)(5-1)
随机过程有2个维度的不确定性，其一是每个状态 
      
           s 
          
           t 
          
         s_t 
        
     st​都是随机的，其二是任一状态 
      
           s 
          
           t 
          
         s_t 
        
     st​的取值都可能和周围其他状态相关 
       
           P 
          
           ( 
          
            s 
           
            1 
           
           , 
          
            s 
           
            2 
           
           , 
          
           . 
          
           . 
          
           . 
          
           ) 
          
           = 
          
            ∏ 
           
            t 
           
           P 
          
           ( 
          
            s 
           
            t 
           
           ∣ 
          
            s 
           
            1 
           
           , 
          
            s 
           
            2 
           
           , 
          
           . 
          
           . 
          
           . 
          
           , 
          
            s 
           
             t 
            
             − 
            
             1 
            
           ) 
          
          P(s_1,s_2,...)=\prod_tP(s_t|s_1,s_2,...,s_{t-1}) 
         
      P(s1​,s2​,...)=t∏​P(st​∣s1​,s2​,...,st−1​)
马尔科夫提出了上述的简化假设，随机过程中每个状态 
      
           s 
          
           t 
          
         s_t 
        
     st​的概率分布只与它的前一个状态 
      
           s 
          
            t 
           
            − 
           
            1 
           
          有 
         
          关 
         
         s_{t-1}有关 
        
     st−1​有关，即 
      
          P 
         
          ( 
         
           s 
          
           t 
          
          ∣ 
         
           s 
          
           1 
          
          , 
         
           s 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
          , 
         
           s 
          
            t 
           
            − 
           
            1 
           
          ) 
         
          = 
         
          P 
         
          ( 
         
           s 
          
           t 
          
          ∣ 
         
           s 
          
            t 
           
            − 
           
            1 
           
          ) 
         
         P(s_t|s_1,s_2,...,s_{t-1})=P(s_t|s_{t-1}) 
        
     P(st​∣s1​,s2​,...,st−1​)=P(st​∣st−1​)，符合该假设的随机过程称为马尔科夫过程（马尔科夫链）。 
       
             (5-2) 
            
              P 
             
              ( 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
              = 
             
               ∏ 
              
               t 
              
              P 
             
              ( 
             
               s 
              
               t 
              
              ∣ 
             
               s 
              
                t 
               
                − 
               
                1 
               
              ) 
             
          P(s_1,s_2,...)=\prod_tP(s_t|s_{t-1})\tag{5-2} 
         
      P(s1​,s2​,...)=t∏​P(st​∣st−1​)(5-2)
鲍姆提出隐含马尔可夫模型：基于马尔科夫假设和独立输出假设（模型在每时刻t会输出一个符号 
      
           o 
          
           t 
          
         o_t 
        
     ot​，并且 
      
           o 
          
           t 
          
         o_t 
        
     ot​只与 
      
           s 
          
           t 
          
         s_t 
        
     st​相关）。 
       
             (5.3) 
            
              P 
             
              ( 
             
               o 
              
               1 
              
              , 
             
               o 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ∣ 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
              = 
             
               ∏ 
              
               t 
              
              P 
             
              ( 
             
               o 
              
               t 
              
              ∣ 
             
               s 
              
               t 
              
              ) 
             
          P(o_1,o_2,...|s_1,s_2,...)=\prod_tP(o_t|s_t)\tag{5.3} 
         
      P(o1​,o2​,...∣s1​,s2​,...)=t∏​P(ot​∣st​)(5.3)则某个状特定的状态序列 
      
           s 
          
           1 
          
          , 
         
           s 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
         s_1,s_2,... 
        
     s1​,s2​,...产生出输出符号 
      
           o 
          
           1 
          
          , 
         
           o 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
         o_1,o_2,... 
        
     o1​,o2​,...的概率为 
       
             (5-4) 
            
              P 
             
              ( 
             
               s 
              
               1 
              
              , 
             
               s 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              , 
             
               o 
              
               1 
              
              , 
             
               o 
              
               2 
              
              , 
             
              . 
             
              . 
             
              . 
             
              ) 
             
              = 
             
               ∏ 
              
               t 
              
              P 
             
              ( 
             
               s 
              
               t 
              
              ∣ 
             
               s 
              
                t 
               
                − 
               
                1 
               
              ) 
             
              P 
             
              ( 
             
               o 
              
               t 
              
              ∣ 
             
               s 
              
               t 
              
              ) 
             
          P(s_1,s_2,...,o_1,o_2,...)=\prod_tP(s_t|s_{t-1})P(o_t|s_t)\tag{5-4} 
         
      P(s1​,s2​,...,o1​,o2​,...)=t∏​P(st​∣st−1​)P(ot​∣st​)(5-4)将式(5-2)(5-3)代入(5-1)中，则得到(5-4)！！！因此，通信的解码问题就可以用隐含马尔科夫模型解决。应用：语言识别、机器翻译、拼写纠错、基因序列分析、股票预测……
训练算法，即给定足够多的观测数据，如何估计隐含马尔科夫模型的参数？（1）有监督训练，效果好，但是需要大量人工标注的数据；（2）无监督训练，鲍姆-韦尔奇算法，每一次迭代都是不断估计新的模型参数，使得输出概率（我们的目标函数）最大化，该过程称为期望值最大化（EM过程）。
解码算法，即给定一个模型和某个特定的输出序列，如何找出最可能产生这个输出的序列状态？=>维特比算法
 
第6章：信息的度量和作用 
信息量等于不确定性的大小。
自信息：一件不太可能的事发生，要比一件非常可能的事发生，提供更多的信息 
       
           I 
          
           ( 
          
           x 
          
           ) 
          
           = 
          
           − 
          
           l 
          
           o 
          
           g 
          
           P 
          
           ( 
          
           x 
          
           ) 
          
          I(x)=-logP(x) 
         
      I(x)=−logP(x)
信息熵：量化整个概率分布中的不确定性总量 
       
           H 
          
           ( 
          
           X 
          
           ) 
          
           = 
          
           − 
          
            ∑ 
           
            x 
           
           P 
          
           ( 
          
           x 
          
           ) 
          
           l 
          
           o 
          
           g 
          
           P 
          
           ( 
          
           x 
          
           ) 
          
          H(X)=-\sum_xP(x)logP(x) 
         
      H(X)=−x∑​P(x)logP(x)
信息的作用在于消除不确定性。NLP的大量问题就是寻找相关的信息。
"相关"的信息（如上下文）能够消除不确定性 
       
           H 
          
           ( 
          
           X 
          
           ) 
          
           ≥ 
          
           H 
          
           ( 
          
           X 
          
           ∣ 
          
           Y 
          
           ) 
          
          H(X)\ge H(X|Y) 
         
      H(X)≥H(X∣Y)当获取的信息与所研究的事物毫无关系时等号成立。
互信息：衡量两个随机事件的相关性 
       
           I 
          
           ( 
          
           X 
          
           ; 
          
           Y 
          
           ) 
          
           = 
          
            ∑ 
           
             x 
            
             ∈ 
            
             X 
            
             , 
            
             y 
            
             ∈ 
            
             Y 
            
           P 
          
           ( 
          
           x 
          
           , 
          
           y 
          
           ) 
          
           l 
          
           o 
          
           g 
          
             P 
            
             ( 
            
             x 
            
             , 
            
             y 
            
             ) 
            
             P 
            
             ( 
            
             x 
            
             ) 
            
             P 
            
             ( 
            
             y 
            
             ) 
            
          I(X;Y)=\sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} 
         
      I(X;Y)=x∈X,y∈Y∑​P(x,y)logP(x)P(y)P(x,y)​【应用】：解决翻译中二义性问题，如bush既是美国总统布什的名字，也表灌木丛。首先从大量文本中找出和布什一起出现的互信息最大的一些词，像总统、美国、国会，同样找出和灌木丛一起出现的互信息最大的词，像土壤、植物等。然后在翻译bush时看看上下文中哪一类相关的词多就可以了。
相对熵：衡量两个取值为正的函数的相似性 
       
           K 
          
           L 
          
           ( 
          
           f 
          
           ( 
          
           x 
          
           ) 
          
           ∣ 
          
           ∣ 
          
           g 
          
           ( 
          
           x 
          
           ) 
          
           ) 
          
           = 
          
            ∑ 
           
             x 
            
             ∈ 
            
             X 
            
           f 
          
           ( 
          
           x 
          
           ) 
          
           l 
          
           o 
          
           g 
          
             f 
            
             ( 
            
             x 
            
             ) 
            
             g 
            
             ( 
            
             x 
            
             ) 
            
          KL(f(x)||g(x))=\sum_{x \in X}f(x)log\frac{f(x)}{g(x)} 
         
      KL(f(x)∣∣g(x))=x∈X∑​f(x)logg(x)f(x)​【应用】：衡量两个常用词（在语法和语义上）在两个不同文本中的概率分布，看是否同义；计算词频率-逆向文档频率（TF-IDF）
 
第23章：上帝的算法-期望最大化算法EM 
EM算法只需要足够的训练数据，定义一个最大化函数，剩下的交给计算机迭代训练就可以了。
E过程：期望值计算过程
M过程：重新计算模型参数，以最大化期望值
EM算法保证算法收敛到局部最优点。如果目标函数是凸函数，则能收敛到全局最优点。
 
第24章：贝叶斯网络–马尔可夫链的扩展 
提出背景：现实生活中很多事物相互的关系不能用一条链串起来，很可能是交叉的、错综复杂的
贝叶斯网络：通过一个有向无环图来表示一组随机变量跟它们的条件依赖关系
 
训练：使用贝叶斯网络需要先确定网络的拓扑结构，以及各个状态之间相关的概率，要用一些已知的数据训练网络
结构训练： 简单问题由专家直接给出结构；对于复杂问题
 a.贪心算法：容易陷入局部最优解
 b.蒙特卡洛方法：计算量大
 c.利用信息论：计算节点两两之间的互信息，只保留互信息较大的节点间的直接连接，然后对简化了的网络做完备搜索，找到全局最优的结构
参数训练：EM过程