cs224n NLP with dl笔记（三）

最新推荐文章于 2019-11-25 21:22:42 发布

学习飞行的山药

最新推荐文章于 2019-11-25 21:22:42 发布

阅读量178

点赞数

分类专栏： NLP基础

本文链接：https://blog.csdn.net/Rosalind_Xu/article/details/102373179

版权

NLP基础专栏收录该内容

15 篇文章 1 订阅

订阅专栏

                    
                    Word Window Classification, Neural Networks, and Matrix Calculus 
Preview 
如何使用传统的ML/Stats方法进行分类？
 训练softmax或者是Logistic回归分类器决定决策边界。
 但是他们的局限性在于仅仅能够求出线性边界，对于复杂的情况没有办法处理。
 这时就需要引入神经网络了。
分类的损失函数使用什么？
 一般约定俗称的使用cross-entropy损失函数。
 交叉熵的概念来自信息论，一般形式如下：
  
          H 
         
          ( 
         
          p 
         
          , 
         
          q 
         
          ) 
         
          = 
         
          − 
         
           ∑ 
          
            c 
           
            = 
           
            1 
           
           C 
          
          p 
         
          ( 
         
          c 
         
          ) 
         
          l 
         
          o 
         
          g 
         
          q 
         
          ( 
         
          c 
         
          ) 
         
         H(p,q)=-\sum_{c=1}^Cp(c)logq(c) 
        
     H(p,q)=−∑c=1C​p(c)logq(c)
 其中， 
      
          p 
         
         p 
        
     p代表真实的概率分布； 
      
          q 
         
         q 
        
     q代表预测的概率分布，c代表的是某一种分类。
 在分类情况当中，p=[0,0,0,1,0,0…]
 因此某个样本i的交叉熵损失如下：
  
          H 
         
          ( 
         
          i 
         
          ) 
         
          = 
         
          − 
         
          l 
         
          o 
         
          g 
         
          q 
         
          ( 
         
          c 
         
          ) 
         
          = 
         
          − 
         
          l 
         
          o 
         
          g 
         
            e 
           
             y 
            
             i 
            
             ∑ 
            
             k 
            
             e 
            
             k 
            
         H(i)=-logq(c)=-log\frac{e^{y^i}}{\sum_k e^k} 
        
     H(i)=−logq(c)=−log∑k​ekeyi​
Named Entity Recognition 命名实体识别具体操作是什么？
 命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。
 NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体。
 难点在于实体的边界、词性、甚至于是不是实体都很难区分，这与上下文有着密切的关系。
Word Window Classification是什么含义？
 一个单词可能同时具有多个词性或者含义，这里指根据上下文来确定某一单词的具体含义。
 上下文，指的是window范围内的单词，我们把这些单词作为一个向量输入到我们的模型当中来。
 
Note 
NLP deep learning与一般的分类器有什么区别？
 从功能角度来看，dl可以做更加复杂的非线性分类器；
 从原理来看，NLP dl同时进行两个步骤，一是单词的向量表示求解，二是多层神经网络的权重以及偏差求解，这两者都是参数。
Binary classification for NER Location原理简介。
 目的：求解出文本中NER的位置
 思想：系统对于window中心为NER的情况输出较高的分数，否则输出较低的分数
 
 使用中间层的意义在于描述单词之间非线性的关系，比如如果第一个单词是museum、后边是in，那么接下来的单词很可能是Loc。
Jacobian矩阵的性质