CRF++（Windows下）中文命名实体识别学习记录

最新推荐文章于 2024-06-07 09:54:03 发布

Carroll2125

最新推荐文章于 2024-06-07 09:54:03 发布

阅读量535

点赞数 2

分类专栏： CRF学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/Carroll0205/article/details/106175341

版权

CRF学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CRF++（Windows下）中文命名实体识别学习记录

使用CRF++的工具包

使用CRF++的工具包

windows版本的可直接下载解压，不需要安装。我下载的是0.58版，注意zip哦，Windows用zip。下载链接: link.
文件里面大致是关于啥的呐：
doc文件夹：官方主页的内容。
example文件夹：有四个任务的训练数据、测试数据和模板文件。
sdk文件夹：CRF++的头文件和静态链接库。
crf_learn.exe：CRF++的训练程序。
crf_test.exe：CRF++的测试程序
libcrfpp.dll：训练程序和测试程序需要使用的静态链接库

下载后可先用example中chunking文件夹，做一下测试。其中原有4个文件：
exec.sh：训练和测试脚本
template：特征模版
test.data：测试数据
train.data：训练数据
把下载的CRF++的工具包里面的crf_learn.exe，crf_test.exe 和libcrfpp.dll文件复制到要操作的目录下面就可以调用命令了。

CRF分词原理

CRF把分词当做字的词位分类问题，通常定义字的词位信息如下：

     词首，常用B表示

     词中，常用M表示

     词尾，常用E表示

     单字词，常用S表示

准备语料

我直接下载好前人标注好的数据了，大家可自行选择。它是长这样的：
在这里插入图片描述

特征模板

新建一个名为template1的文件用于构建模板，只采用了字为特征，所以创建的模板也很简单：
下面展示 template1

# Unigram

U00:%x[-2,0] 上上个字
U01:%x[-1,0] 上个字
U02:%x[0,0]  当前字
U03:%x[1,0]  下个字
U04:%x[2,0]  下下个字
U05:%x[-1,0]/%x[0,0] 上个字和当前字
U06:%x[0,0]/%x[1,0] 当前字和下个字

# Bigram
B

%x[row,column]代表的是行和列，[-1,0]表示前1个字的第1列，［0，0］当前字的第1列，［1，0］后1个字的第1列。

训练

cmd中进入CRF++ -0.58所在的文件夹（cd CRF++ -0.58所在目录），使用
crf_learn <模板> <训练语料> <模板文件>
crf_learn template1 dev.data model 训练数据：
训练数据视图

测试

crf_test -m model dev.data >output2.txt 测试数据,具体效果如下：

得到的结果格式是在原有的两列后再增加一列，是通过训练的模型对测试数据中的文字进行的标注结果。

评估标注结果

验证就是比较result文档的后两列数据，统计相同的标签个数或不同的个数，从而得到准确率、召回率、F1值。此处我们调用conlleval.pl对预测结果文件进行评估。下载链接: link.下滑网页，找conlleval.txt，将下载下来的 txt 文档,改名为 conlleval.pl ，然后放到C:\Perl64\eg里，（需安装perl的环境）
并在cmd里面输入：

> perl conlleval.pl < result2.txt

测试数据比较少，所以F值高的离谱，结果图仅供参考
在这里插入图片描述
【注】：测试结果文件中每行结束均[Tab]，要把conlleval.txt中的my $delimiter = " "换成" "，即[空格]——>[Tab]。

Carroll2125

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
CRF++（Windows下）中文命名实体识别学习记录

CRF++（Windows下）中文命名实体识别学习记录使用CRF++的工具包CRF分词原理准备语料特征模板训练测试评估标注结果使用CRF++的工具包windows版本的可直接下载解压，不需要安装。我下载的是0.58版，注意zip哦，Windows用zip。下载链接: link.文件里面大致是关于啥的呐：doc文件夹：官方主页的内容。example文件夹：有四个任务的训练数据、测试数据和模板文件。sdk文件夹：CRF++的头文件和静态链接库。crf_learn.exe：CRF++的训练程序。c
复制链接

扫一扫