Word Window Classification, Neural Networks, and Matrix Calculus
Preview
- 如何使用传统的ML/Stats方法进行分类?
训练softmax或者是Logistic回归分类器决定决策边界。
但是他们的局限性在于仅仅能够求出线性边界,对于复杂的情况没有办法处理。
这时就需要引入神经网络了。 - 分类的损失函数使用什么?
一般约定俗称的使用cross-entropy损失函数。
交叉熵的概念来自信息论,一般形式如下:
H ( p , q ) = − ∑ c = 1 C p ( c ) l o g q ( c ) H(p,q)=-\sum_{c=1}^Cp(c)logq(c) H(p,q)=−∑c=1Cp(c)logq(c)
其中, p p p代表真实的概率分布; q q q代表预测的概率分布,c代表的是某一种分类。
在分类情况当中,p=[0,0,0,1,0,0…]
因此某个样本i的交叉熵损失如下:
H ( i ) = − l o g q ( c ) = − l o g e y i ∑ k e k H(i)=-logq(c)=-log\frac{e^{y^i}}{\sum_k e^k} H(i)=−logq(c)=−log∑kekeyi - Named Entity Recognition 命名实体识别具体操作是什么?
命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
难点在于实体的边界、词性、甚至于是不是实体都很难区分,这与上下文有着密切的关系。 - Word Window Classification是什么含义?
一个单词可能同时具有多个词性或者含义,这里指根据上下文来确定某一单词的具体含义。
上下文,指的是window范围内的单词,我们把这些单词作为一个向量输入到我们的模型当中来。
Note
- NLP deep learning与一般的分类器有什么区别?
从功能角度来看,dl可以做更加复杂的非线性分类器;
从原理来看,NLP dl同时进行两个步骤,一是单词的向量表示求解,二是多层神经网络的权重以及偏差求解,这两者都是参数。 - Binary classification for NER Location原理简介。
目的:求解出文本中NER的位置
思想:系统对于window中心为NER的情况输出较高的分数,否则输出较低的分数
使用中间层的意义在于描述单词之间非线性的关系,比如如果第一个单词是museum、后边是in,那么接下来的单词很可能是Loc。 - Jacobian矩阵的性质