https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/
在4中解释了如何计算S(i),在这节中说明如何计算P(total)
P(total)可以直接求解,但是效率非常低。
根据之前的loss定义,我们加上一个log,会变成了负数,再加上一个负号,求当前loss的最小值了。【和P(real)/P(total)成反比,即求当前loss的最小化,即为求P(real)/P(total)得最大化】
如下公式得最后一行,应该是分别为发射概率矩阵和转移概率矩阵,但是转移概率矩阵为什么是y(i),y(i+1)得关系呢?
那么,现在求P(total)的过程转换成了上面的公式,而转移矩阵和发射矩阵是可以直接算得的。那么重点就是求
接下来的步骤中,有两个重要的变量,obs和previous,其中obs表示当前单词的信息,previous存储了前面所有步骤的结果。
下一篇是要讲,当来了一个句子之后,如何通过模型预测出序列标签。那么…到目前为止,实际上是讲到了loss,并没有讲网络参数(forward)如何更新参数(optimizer),而这个内容在pytorch中有比较好的讲解。pytorch_learning pytorch with examples
07-14
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交