CRF++使用教程

论文《Examination of Effective Features for CRF-Based Bibliography Extraction from Reference Strings 》中提到使用CRF++ 0.58。所以自己也想试着用一下。这里找到了一个博主的博客,讲解的还挺仔细的。

原文链接https://blog.csdn.net/u010626937/article/details/78414292

其中,关于训练语料的格式,不是很懂。各个博客都没有写的很清楚,大概是默认读者拥有读懂的技能吧。查了半天才大概懂是什么意思。这里有一个博客https://blog.csdn.net/u014692971/article/details/50479445,说明了分词后的词和词性标注是NLPIR(原ICTCLAS)生成的结果,但这个博客不好的点是,里面的图片我看不到。

这里选取了两个博客https://blog.csdn.net/u010454729/article/details/40045815 和https://www.iteye.com/blog/fhqllt-947917,都是讲解中科院ICTCLAS分词汉语词性标记集比较详细的,一个是以词性分类顺序,一个是按照字母顺序排列。

这里举一个例子。

其中“太、短、而、已、。”这五个都是分词后的词,第二列的Sd、Sa、Bu、Eu、Sw都是对应的词性标注。我所理解的是S、B、E和命名实体中的BIOES 标注方法一样。B表示这个词处于一个实体的开始(Begin), I 表示内部(inside), O 表示外部(outside), E 表示这个词处于一个实体的结束为止, S 表示,这个词是自己就可以组成一个实体(Single)。这几个大写字母后面所跟着的小写字母就是中科院ICTCLAS分词汉语词性标记集里所对应的词性了。比如“太”是副词,在ICTCLAS中就被标为“d”。但是第三列的N原本是什么意思我不太明白,后来看了博主举的后面的例子

两者一结合,有了自己的理解。因为目的是识别出命名实体,而最后一列是对应的标签,所以命名实体的标签就是对应的人名、地名、机构名等的标签,而其他的不是命名实体,则就被标记为N,可以理解为not。这都是我个人的理解,日后看到更准确的描述会回来修改。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值