CRF++使用

最新推荐文章于 2025-08-24 15:20:03 发布

原创最新推荐文章于 2025-08-24 15:20:03 发布 · 829 阅读

CC 4.0 BY-SA版权

文章标签：

5 篇文章

订阅专栏

本文详细介绍CRF++的安装步骤、训练数据准备及特征模板使用。从非root用户安装到训练过程，涵盖常见特征模板解析，助你快速掌握实体识别核心技术。

安装

非root用户安装CRF++，首先在官网下载，然后解压。 ¹

 ./configure  --prefix=/home/xxx/crf
make
make install

训练数据的格式，每列应该以tab隔开，注意结尾的换行符，出现windows的换行的时候，还有出现多余的空行，可能会出现下面的错误

encoder.cpp(340) [max_size == size]inconsistent column size: 4 3 train.data

句子之间用空格隔开，除了最后的标签列中间还可以添加其他的特征数据，比如词性，还可以添加其他的

我	O
爱	O
北	B-LOC
京	I-LOC
的	O
天	O
安	O
门	O

明	O
天	O
北	B-LOC
京	I-LOC
怎	O
么	O
样	O

常见的特征模板如下

# Unigram
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]
U03:%x[-1,0]%x[0,0]
U04:%x[0,0]%x[1,0]
U05:%x[-1,0]%x[1,0]

# Bigram
B

特征有两类，Bigram和Unigram
Bigram特征主要是当前的token和前面一个位置token的自动组合生成的bigram特征集合
以京字为例

通过crf_learn完成

crf_learn template_file train_data model_name

训练中的参数说明

参数	说明
-a	参数选择，默认是`CRF-L2`，除此之外还有`CRF-L1`
-c	设置CRF 的正则化项的系数`C`，是一个大于0浮点数，默认是1.0，`C`越大CRF++越容易陷入到过拟合当中，通过调节C调节
-f
-p
-e