实习点滴（4）--CRF算法的特征模板总结

最新推荐文章于 2024-02-22 15:50:55 发布

四海龙王Black

最新推荐文章于 2024-02-22 15:50:55 发布

阅读量1w

点赞数

分类专栏：实习点滴记录文章标签： CRF++ CRF模板

本文链接：https://blog.csdn.net/sihailongwang/article/details/75340491

版权

实习点滴记录专栏收录该内容

10 篇文章 1 订阅

订阅专栏

最近工作中接触到了CRF算法以及CRF++，于是乎，去了解了关于这些的一系列的东西，打算总结总结CRF算法里的模板问题。

我们知道，深度学习（Deeplearning）是不需要特征模板的，它会自己学习里边的规律，而CRF则是需要特征模板的，所以，选择什么样的特征模板是至关重要的。

概念：

CRF中一共存在两种模板：U-gram和B-gram
U-gram：也就是Unigram template，它描述了unigram feature。

一元模板，表示只与当前位置对应的标签相关的特征

if (output = B and feature="U02:那") 
    return 1
else 
    return 0

B-gram：也是Bigram template。

二元模板，表示前一个位置和当前位置对应的标签相关的特征

当类别数很大的时候，这种类型会产生许多可区分的特征，这将会导致训练和测试的效率都很低下。

实例解释：

实例如下：

# Unigram  
U00:%x[-2,0]  
U01:%x[-1,0]  
U02:%x[0,0]  
U03:%x[1,0]  
U04:%x[2,0]  
U05:%x[-2,0]/%x[-1,0]/%x[0,0]  
U06:%x[-1,0]/%x[0,0]/%x[1,0]  
U07:%x[0,0]/%x[1,0]/%x[2,0]  
U08:%x[-1,0]/%x[0,0]  
U09:%x[0,0]/%x[1,0]  
   
# Bigram  
B

假如我们训练的语料句子是：我是中国人（下标：-2,-1,0,1,2），我们考虑的当前位置为：“中”

U0--U4特征模板：表示某个位置与当前位置的信息之间的关系，比如说U00，就是指的“我”和“中”之间的联系

U5--U7特征模板：表示某三个位置与当前位置的信息之间的关系，比如说U05，就是指的“我”、“是”、“中”和“中”之间的联系

U8--U9特征模板：表示某两个位置与当前位置的信息之间的关系，比如说U08，就是指的“是”、“中”和“中”之间的联系

一般使用Unigram就足够了。若使用Bigram，也使用最简单的模板。它会带来效率低下的效果。

比如我们是做词性标注工作的时候，我们知道“动词后边很容易跟名词，所以某个位置的词性与其附近的词的词性有很大的关系”，所以说这种情况下，动词后边名词的概率就会变高，指引我们“动词后边名词的概率很大”

注意：

其中#开头的行不起作用，为注释；
行与行之间可以有空行；
Unigram的特征前使用字母U，而Bigram的特征前使用字母B。后面的数字用于区分特征，当然这些数字不是一定要连续。

四海龙王Black

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
实习点滴（4）--CRF算法的特征模板总结

最近工作中接触到了CRF算法以及CRF++，于是乎，去了解了关于这些的一系列的东西，打算总结总结CRF算法里的模板问题。我们知道，深度学习（Deeplearning）是不需要特征模板的，它会自己学习里边的规律，而CRF则是需要特征模板的，所以，选择什么样的特征模板是至关重要的。
复制链接

扫一扫