BilSTM 实体识别_利用crf++进行实体识别

最新推荐文章于 2024-07-31 17:34:33 发布

weixin_39857174

最新推荐文章于 2024-07-31 17:34:33 发布

阅读量227

点赞数

文章标签： BilSTM 实体识别如何识别哭泣csdn

什么是crf

利用crf++进行实体识别的流程

确定标签体系；
确定特征模板文件；
处理训练数据文件；
模型训练。

确定标签体系

大部分情况下，标签体系越复杂准确度也越高，但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。

确定模板文件

特征模版是一个文本文件，其内容如下所示，其中每行表示一个特征。如下模板使用了unigram特征，并且仅以字符本身作为特征而不考虑其他特征。除当前字符外，还使用了其前后3个字，以及上下文的组合作为特征。CRF++会根据特征模版生成相关的特征函数。关于特征模版的详细解释可以查看官网文档，并且对于特征的选择和设计可以灵活配置。

#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U5:%x[-2,0]/%x[-1,0]
U6:%x[-1,0]/%x[0,0]
U7:%x[0,0]/%x[1,0]
U8:%x[1,0]/%x[2,0]

一共有两种模板：

第一种是Unigram template:第一个字符是U，这是用于描述unigram feature的模板。每一行%x[#,#]生成一个CRFs中的点(state)函数: f(s, o), 其中s为t时刻的的标签(output)，o为t时刻的上下文.如CRF++说明文件中的示例函数:

func1 = if (output = B and feature="U02:那") return 1 else return 0

它是由U02:%x[0,0]在输入文件的第一行生成的点函数.将输入文件的第一行"代入"到函数中,函数返回1,同时,如果输入文件的某一行在第1列也是“那”,并且它的output（第2列）同样也为B,那么这个函数在这一行也返回1。

第二种是Bigram template:第一个字符是B，每一行%x[#,#]生成一个CRFs中的边(Edge)函数:f(s', s, o), 其中s'为t – 1时刻的标签.也就是说,Bigram类型与Unigram大致机同,只是还要考虑到t – 1时刻的标签.如果只写一个B的话,默认生成f(s', s)，这意味着前一个output token和current token将组合成bigram features。

处理训练数据文件

CRF模型的训练数据是一行一个token，一句话由多行token组成，如下图所示。

训练数据及测试数据

a) 训练命令：crf_learn template_file train_file model

其中template_file是模板文件，train_file是训练语料，都需要事先准备好；model是CRF++根据模板和训练语料生成的文件，用于解码。

b) 测试命令：crf_test -m model_file test_file > result_file

其中 model_file是刚才生成的model文件，test_file是待测试语料，“>result_file”是重定向语句，指将屏幕输出直接输出到文件result_file中。

结合规则进行改进

同一实体内不同字间的类型不同，则以字类数较多者为
实体开头的字必定为B-???格式
实体的开始和结尾都有特定的特征可以遵循（如停用词、动词等作为分界等）
固定实体后跟实体应为B-???格式（如省名后）
5. 实体间间隔较小时可能合并为同一实体

结合分词及词性标注进行改进

看来单从字的角度着眼已然不够，于是试图利用分词和词性标注信息。利用工具对文本进行分词标注，每一行的token仍然是以单字为特征，中间加入词性的信息如下图所示。针对这样的信息构建新的模板，利用中间一列的信息，可以提高准确率。

大神实验结果对照表

crf++的使用方法

CRF++是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具。Windows版的无须安装，直接解压即可使用。

训练语料格式

训练语料至少应具有两列，列间由空格或制表位间隔，且所有行（空行除外）必须具有相同的列数。句子间使用空行间隔。

如：

i. 有两列特征的

太 Sd N

短 Sa N

而 Bu N

已 Eu N

。 Sw N

以 Sp N

家 Bn N

乡 En N

的 Su N

ii. 只有一列特征的

太 N

短 N

而 N

已 N

。 N

以 N

家 N

乡 N

的 N

特征的选取及模板的编写

a) 特征选取的行是相对的，列是绝对的，一般选取相对行前后m行，选取n-1列（假设语料总共有n列），特征表示方法为：%x[行,列]，行列的初始位置都为0。例如：

i. 以前面语料为例

“ Sw N

北 Bns B-LOC

京 Mns I-LOC

市 Ens I-LOC

首 Bn N

假设当前行为“京”字这一行，那么特征可以这样选取：

结合深度学习的方法

随着深度学习的兴起，RNN、LSTM、BILSTM等模型已经被证明在NLP任务上有着良好的表现。相比传统模型，RNN能够考虑长远的上下文信息，并且能够解决CRF特征选择的问题，可以将主要的精力花在网络设计和参数调优上，但RNN一般需要较大的训练数据，在小规模数据集上，CRF表现较好。在学术界，目前比较流行的做法是将BILISTM和CRF进行结合，借鉴两个模型各自的优点，来达到更好的效果。