关于CRF序列标注的一些理解

  • 关于特征函数个数问题

crf的模板由U模板和B模板组成,故其总的特征函数个数 = U模板对应的特征函数个数 + B模板对应的特征函数个数

U模板对应的特征函数个数为:L*Nu,其中L为标签个数,Nu为从U模板扩展出来的独立字符串的个数
B模板对应的特征函数个数为:L*L*Nb,其中L为标签个数,Nb为从B模板扩展出来的独立字符串的个数

  • 转移概率问题

crf转移概率矩阵T的维度为L*L

转移概率矩阵T的值在crf模型文件中,对应于idB所在位置的连续L*L个权重值。在如下的模型文件中,所对应的位置即为:240~240+5*5-1(L=5)

version: 100
cost-factor: 1
maxid: 5485
xsize: 1


DE
ID
OT
ST
TH


U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
B


240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;

  • 关于从模板扩展出来的独立字符串前面的ID与权重矩阵的对应关系问题

下面模型文件中的ID从0开始,以L为间隔,标号不断增加。标号ID对应权重矩阵对应位置的L个权重。如:

195 U00:-  // 对应权重矩阵下标为195~199(L=5)

240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;

未完待续。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值