NER系列:viterbi动态规划在NER中的应用和源码解析

NER解码任务简述

在上一节[NER系列:CRF条件随机场原理简介,深入理解CRF源码实现]中介绍了命名实体识别NER任务的损失求解部分,求解损失的目的是让模型进行训练得到每个位置的发射得分矩阵和相邻两个标签之间的转移得分矩阵,这些矩阵参数使得在训练集中正确路径的得分概率在所有可能路径中得分占比越大,从而模型能够将正确的序列标注结果在所有结果中脱颖而出。
在模型预测阶段,每条样本需要基于训练好的发射矩阵和转移矩阵计算出得分最大的序列标注结果,这个过程就是CRF的解码过程,序列标注的任务阶段如下表格所示

任务阶段输入算法输出
1.训练序列标注样本Bert+CRF发射矩阵,转移矩阵
2.解码发射矩阵,转移矩阵viterbi动态规划序列标注结果

viterbi动态规划算法简述

viterbi维特比算法是一个求序列最短路径的动态规划算法,如图所示黄色路径是从star到end的最短路径

viterbi维特比算法求解最短路径

viterbi也可以用于很多其他问题,在序列标注或者命名实体识别任务中,它的作为求解序列概率最大的路径,此时将求路径得分最短问题转化为求最大问题,另外不仅要考虑边的得分,也要考虑节点的得分

viterbi算法求解

viterbi算法求解序列标注的目标,是确定每个词位置的隐状态,使得这组隐状态序列的可能性最大,即该序列所经过的边和节点所带来的转移得分和发射得分最大。


viterbi算法时间复杂度

设文本长度为n,每个词位置下有k中实体类别,viterbi算法的计算过程为

    1. 逐步递归计算每个位置最大得分,并且作为下个位置的起始得分,一共需要递归计算n次
    1. 每个位置的最大的得分只保留下以各个状态为结尾的唯一一条最大得分路径,删除所有其他路径,因此每个位置下只有k条候选路径,和下一个位置进行一次逐步交叉计算共有k×k条可能路径

viterbi算法在每个位置删除了各状态结尾的非最大得分路径,大大减少了整体求解的复杂度,令t时刻以m状态为结尾的路径一共有s条,累计得分分别为s1,s2,s3…,其中s3为最大得分,则删除所有s1,s2,s4…,只保留下s3,因为从t时刻之后网络的结构完全相同,后续的累计得分相同,若想求得全局最大得分路径,则在t时刻也只能取最大得分s3,示意图如下

保留最大结尾得分路径,删除其他路径

因此viterbi算法的时间复杂读为n×(k方),而暴力穷举所有实体类别路径一共有k的n方种可能,一般n>>k,暴力穷举的复杂度是文本长度的指数级,而viterbi的复杂读是随着文本长度的线性级。


图解NER中viterbi解码过程

以一个文本长度为3,每个位置的实体类别有2类为例,模拟下viterbi解码过程

viterbi求解NER案例

其中每个位置有2种实体类别m1和m2,节点的数值代表该位置下该实体类别的发射得分,另外转移得分矩阵如下,每个值代表从横轴类别到纵轴类别的转移概率

开始矩阵m1m2
start0.80.3
转移矩阵m1m2
m10.70.9
m20.21.2
结束矩阵end
m10.2
m20.6

从start开始逐步计算结果如下,其中每个时刻t只保留m1和m2结尾的各唯一一条最大得分路径,并以此作为新的起始发射得分继续递归计算到end结束

viterbi求解结果

最终分别以m1和m2生成2条候选最大得分路径,求他们的最大值为5.3,最大路径为m1,m1,m2,end,viterbi过程结束。


viterbi解码过程源码分析

采用torchcrf实现的CRF来分析viterbi的实现,该源码中CRF包含损失求解和viterbi解码两个过程,本节只关注viterbi解码过程,可以使用pip很方便地安装torchcrf

pip install torchcrf

源码在_viterbi_decode中实现了viterbi过程,该函数的输入是emissions又上层模型产出的发射得分,以及mask句子掩码,另外该类内部会维护CRF产出的转移矩阵,通过发射得分,转移矩阵计算最大路径得分和途径的标签类别,通过掩码判断标签停止位置。
viterbi的递归过程核心代码如下

for i in range(1, seq_length):
    ...
    next_score = broadcast_score + self.transitions + broadcast_emission
    # shape: (batch_size, num_tags)
    # TODO 当前位置下,以每个类别为结尾的情况,最大的路径得分,保留下最大得分,其他全部忽略
    # TODO next_score [batch_size, num_tags] 作为下一个位置的起始发射得分
    #  indices [batch_size, num_tags] 是最大值,代表每个类别结尾下,最大累计得分是前词是哪个类别编码
    next_score, indices = next_score.max(dim=1)

    score = torch.where(mask[i].unsqueeze(1), next_score, score)
    # TODO 虽然分数受到mask控制不再累加,但是indices继续计算和保存
    history.append(indices)

其中循环体的第一行实现了路径累加后词后的最新得分,即前词累计的得分作为发射得分,笛卡尔积加上所有转移得分和后词的发射得分,计算过程可视化如下

累加后词的最新得分

然后对前词维度求最大值,相当于后词不动,所有以后词为结尾的之前累计路径求得分最大值,输出next_score和indices,其中next_score记录了该批次下每条样本累计到该时刻以每个类别为结尾的最大得分,indices记录了该批次下每条样本累计到该时刻以每个类别为结尾的最大得分所对对应的前词所属的索引位置,即类别编码。history记录下了该循环过程记录下了所有时刻下的最大得分对应的前词列表。
递归过程结束后,对每条样本最终输出每个类别结尾的最大得分,对这些候选最大的得分再求一次最大值即可确定最终的得分以及对应的前词类别,该类别为每条样本的最后一个词所对应的标记类别

seq_ends = mask.long().sum(dim=0) - 1
best_tags_list = []

for idx in range(batch_size):
    # TODO score[idx] 定位到某条样本,拿到最终最大的以某类别为结尾的得分
    # TODO best_last_tag 是一个标量,是最后一个tag的编号
    _, best_last_tag = score[idx].max(dim=0)
    best_tags = [best_last_tag.item()]

    # TODO 从最后一次向前遍历
    for hist in reversed(history[:seq_ends[idx]]):
        # TODO hist[idx] 拿到属于该条样本的 [num_tags, ], 各种最大得分结尾下前词的编码,已知best_tags是最终路径的最大得分结尾,在这个结尾下那条唯一保留下来的最大前词是谁
        # TODO best_tags[-1] 拿到best_tags最后一个词的编码,作为每个步长的结尾,逐步往前递推
        # TODO best_last_tag 拿到对应的前词编码
        best_last_tag = hist[idx][best_tags[-1]]
        best_tags.append(best_last_tag.item())

    best_tags.reverse()
    best_tags_list.append(best_tags)

获得句尾的类别后,从后依次往前递推,拿到前词对应的实体类别,获得所有类别序列后将最终结果反转即可获得最终的实体类别序列,viterbi求解过程的代码实现结束。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值