命名实体识别
命名实体识别
命名实体识别:模型识别出文本中具有特定意义的实体字符串边界,并归类到预定义类别。
信息抽取(IE)=命名实体识别+关系抽取,进而将非结构化文本转变为结构化知识。
命名实体识别是信息抽取、问答系统、句法分析、机器翻译等NLP上层应用的重要基础工具。
标签体系
标签体系越复杂那么模型准确度也随之增高,但训练时间也会增加。
IO体系:O表示其它,I表示实体的位置(是实体),但IO体系无法区分出连续同类别的不同。
BIO体系:增加B,表示实体标识的开始,用于区分不同实体。但对于单独实体(一个字的实体)用B表示并不合理。
BIOES体系:B表示实体标识开始,E表示实体标识结束(用于区分实体),S标识单一实体。
命名实体识别发展历程
概率图模型
概率图模型就是一类用图表达变量相关关系的概率模型,通常用一个节点标识一个或一组随机变量,节点间的边表示变量间的概率关系,分为有向无环图和无向图模型。
隐马尔可夫模型
隐马尔可夫模型是由初始状态概率向量、状态转移概率矩阵和观测概率矩阵决定。
- 初始状态概率
通常用 π \pi π表示,即 π = P ( i 1 = q i ) \pi=P(i_1=q_i) π=P(i1=qi)
序列中第一个观测对象 O 1 O_1 O1的隐状态是 q i q_i qi的概率(一维向量)。 - 状态转移概率
P ( i t ∣ i t − 1 ) P(i_t|i_{t-1}) P(it∣it−1)是隐状态i从t-1时刻转移到t时刻的概率。用A表示状态概率矩阵。
- 发射概率
发射概率 P ( o t ∣ i t ) P(o_t|i_t) P(ot∣it)是指 o t o_t ot依赖于当前时刻的隐状态 i t i_t it的程度。
用B表示发射概率矩阵
条件随机场CRF
设两组随机变量 X = ( X 1 , X 2 , … , X N ) X=(X_1,X_2,\dots,X_N) X=(X1,X2,…,XN)和 Y = ( Y 1 , Y 2 , … , Y N ) Y=(Y_1,Y_2,\dots,Y_N) Y=(Y1,Y2,…,YN),那么线性链条件随机场的定义为 P ( Y i ∣ X , Y i − 1 , Y i + 1 ) , i = 1 , … , n P(Y_i|X,Y_{i-1},Y_{i+1}),i=1,\dots,n P(Yi∣X,Yi−1,Yi+1),i=1,…,n,当i为1或n时只考虑单边。
条件随机场定义:设X和Y是随机变量, P ( Y ∣ X ) P(Y|X) P(Y∣X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,即 P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w − v ) P(Y_v|X,Y_w, w≠v)=P(Y_v|X,Y_w, w-v) P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w−v)对任意节点成立,则条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)为条件随机场。 w − v w-v w−v表示在图G中与结点 v v v有边连接的所有结点 w w w; w ≠ v w≠v w=v表示结点 v v v以外的所有结点。