条件随机场(CRF)识别命名实体

资实验相关资料下载

CRF++使用见《CRF++的简单使用》

一、实验环境

a)         软件:windows XP pro sp3visual studio 2008 & Dotnet2.0 CRF++ perl

b)         硬件: CPU: cm420,内存:2G ddr533, 160G 8M sata 富士通

二、实验过程

下面未经特别说明,都是按照作业要求将训练语料分成7:3进行训练和评测所得的结果。

a)         直接应用CRF

                         i.              所给定的语料格式非常符合条件随机场的要求,故直接使用条件随机场进行训练测试。(本次试验的文件在包test1.rar中)

1.         转换文档编码为UTF8CRF++在使用UTF16时会报错)

2.         制定模板,如下:

#Unigram

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U10:%x[-1,0]/%x[0,0]

U11:%x[0,0]/%x[1,0]

3.         使用CRF++学习特征(相关信息如下)

a)         命令:crf_learn template_file train_file model

其中template_file是模板文件,train_file是训练语料,都需要事先准备好;modelCRF++根据模板和训练语料生成的文件,用于解码。

                                                                   i.              template_file文件

1.         模板的基本格式为%x[row,col],它用于确定输入数据中的一个token

其中,row确定与当前的token的相对行数。col用于确定绝对列数。(如下图:)

 

col 0

col 1

col 2

 

row -2

Ens

I-LOC

 

row -1

Bn

N

 

row 0

En

N

当前行

row 1

Bns

B-PER

 

row 2

Mns

I-PER

 

 

模板

指代的特征

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值