CRF++使用教程

最新推荐文章于 2021-05-03 23:42:16 发布

June0805

最新推荐文章于 2021-05-03 23:42:16 发布

阅读量415

点赞数

分类专栏：工具使用

本文链接：https://blog.csdn.net/June0805/article/details/100518505

版权

工具使用专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文《Examination of Effective Features for CRF-Based Bibliography Extraction from Reference Strings 》中提到使用CRF++ 0.58。所以自己也想试着用一下。这里找到了一个博主的博客，讲解的还挺仔细的。

原文链接https://blog.csdn.net/u010626937/article/details/78414292

其中，关于训练语料的格式，不是很懂。各个博客都没有写的很清楚，大概是默认读者拥有读懂的技能吧。查了半天才大概懂是什么意思。这里有一个博客https://blog.csdn.net/u014692971/article/details/50479445，说明了分词后的词和词性标注是NLPIR（原ICTCLAS）生成的结果，但这个博客不好的点是，里面的图片我看不到。

这里选取了两个博客https://blog.csdn.net/u010454729/article/details/40045815 和https://www.iteye.com/blog/fhqllt-947917，都是讲解中科院ICTCLAS分词汉语词性标记集比较详细的，一个是以词性分类顺序，一个是按照字母顺序排列。

这里举一个例子。

其中“太、短、而、已、。”这五个都是分词后的词，第二列的Sd、Sa、Bu、Eu、Sw都是对应的词性标注。我所理解的是S、B、E和命名实体中的BIOES 标注方法一样。B表示这个词处于一个实体的开始(Begin), I 表示内部(inside), O 表示外部(outside), E 表示这个词处于一个实体的结束为止， S 表示，这个词是自己就可以组成一个实体(Single)。这几个大写字母后面所跟着的小写字母就是中科院ICTCLAS分词汉语词性标记集里所对应的词性了。比如“太”是副词，在ICTCLAS中就被标为“d”。但是第三列的N原本是什么意思我不太明白，后来看了博主举的后面的例子

两者一结合，有了自己的理解。因为目的是识别出命名实体，而最后一列是对应的标签，所以命名实体的标签就是对应的人名、地名、机构名等的标签，而其他的不是命名实体，则就被标记为N，可以理解为not。这都是我个人的理解，日后看到更准确的描述会回来修改。

June0805

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CRF++使用教程

论文《Examination of Effective Features for CRF-BasedBibliography Extraction from Reference Strings》中提到使用CRF++ 0.58。所以自己也想试着用一下。这里找到了一个博主的博客，讲解的还挺仔细的。原文链接https://blog.csdn.net/u010626937/article/deta...
复制链接

扫一扫

专栏目录