CRF命名实体识别的一些tips

最新推荐文章于 2024-08-02 23:26:24 发布

学习小哥

最新推荐文章于 2024-08-02 23:26:24 发布

阅读量4k

点赞数

分类专栏：深度学习文章标签： CRF

本文链接：https://blog.csdn.net/qq_35014150/article/details/73826930

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

调研目的：

对CRF模型的解释以及其在命名实体识别中的具体实现进行调研

调研步骤：

1、表达式的解析

CRF最早于2001年提出，其表达式如下：

其中：

表达式中的各符号表达含义如下：

（1） Z(x)为一个规范化因子，以使得给定输入的所有可能的状态序列的概率只和为1。

（2）是转移特征函数，如果满足条件则取为1，否则为0
（3）状态特征函数，满足条件取1，否则取0。
（4），是，对应的权值

2、CRF在命名实体识别上的应用

（1）表达式的具体含义：y和x都是序列，通过考虑长远的上下文信息，考虑整个句子的局部特征的线性加权组合，通过viterbi算法来找到一个概率最高的序列y = (y1, y2, …, yn)，使得p(y1, y2, …, yn| x, w)最高。

（2）2个特征函数的含义：对于转移特征函数t_k，其形式为（label1,label2,x,i）,label1,label2∈{B-PER,M-PER,E-PER,B-LOC,M-LOC,E-LOC,B-ORG,M-ORG,E-ORG,O},label1为前一个标记，label2为当前的标记，x为当前位置的字,i为第i时刻。例如：

赵明今天上午去了北京，这句话的标记结果为：赵/B-PER 明/E-PER 今/O 天/O 上/O 午/O 去/O 了/O 北/B-LOC 京/E-LOC。如果当前位置取到i=3的时刻，则有i=3时刻的观察值的真实特征b(x,i)为：

b(x_-2=”赵”，i=3)、b(x_-1=”明”，i=3)、b(x₀=”今”，i=3)、b(x₁=”天”，i=3)、b(x₂=”上”，i=3)

结合当前位置和之前位置的标注结果即可获得相应的特征函数，如：

f(y_i-1=B-PER,y_i=E-PER,x_-1=”明”，i=3)就是一个特征函数，表示成二值函数形式为：

f_j=

由于语言的多样性，单一模式的特征函数无法覆盖所有的语言内在规律，此时可以通过一些模版来筛选特征。特征模版的作用就是为特征函数的生成提供一个统一模式，通过特征模版的使用可以方便的获得我们所需要的所有特征函数，特征函数模版的制定直接关系到特征函数的生成。特征模版的选取需要进行多次尝试比较，从中挑选最为有效的模版。

（3）权重系数的选取

CRF模型训练过程分为两部分，第一部分为特征函数集的建立，第二部分为模型参数估计，也就是计算函数的权重。常用的参数估计方法为极大似然估计法（频率论方法）对于λ的选取符合最大熵原理（ME）

L(λ)=^p’(x,y)

其中

上式表示的是训练集中包含的所有特征的个数，p’(x,y)为训练数据的经验分布，其中C_j(y^k,x^k)表示给定序列x和标注序列y的特征个数f_j个数，即

3、CRF的具体实现工具----CRF++

CRF++是具体实现CRF实体识别的一个工具，CRF++里的特征获取方式是通过特征模版匹配训练语料产生的，因此，扫描语料中的每一个词，循环匹配模板库中的每一个模版，将匹配到的特征加入到特征集，这样就构成了CRF的特征集。

特征生成算法具体描述如下：

输入：训练语料、特征模版

输出：特征集

开始：

（1）在模板库中顺序取一个模版T；