接续上一天的学习
首先我们要了解下Score计算
根据公式(3)(3)计算正确标签序列所对应的得分,这里需要注意,除了转移概率矩阵𝐏P外,还需要维护两个大小为的向量,分别作为序列开始和结束时的转移概率。同时我们引入了一个掩码矩阵,将多个序列打包为一个Batch时填充的值忽略,使得ScoreScore计算仅包含有效的Token。
如图
除此之外还有Normalizer计算
Normalizer是𝑥对应的所有可能的输出序列的Score的对数指数和(Log-Sum-Exp)。此时如果按穷举法进行计算,则需要将每个可能的输出序列Score都计算一遍,共有多个结果。
在之中算法扮演着十分重要的角色
需要实现解码部分。我们要选择适合求解序列最优路径的Viterbi算法。与计算Normalizer类似,使用动态规划求解所有可能的预测序列得分。
文末附上打卡时间