CRF+BiLSTM代码分步骤解读
最近在完成CRF+BiLSTM的代码,看了视频讲解后总觉得无非不是BiLSTM的输出外加CRF路径选择,总之动态规划而已,但是却分分钟被现实打脸,这里边确实有太多需要细细琢磨的细节!
所以我准备出一个系列文章来详细解读这个过程。
正如我之前分析过的那篇2015年的论文中它对于词性标注的问题所构建的模型(如下所示)
大概思路就是通过BiLSTM得出发射分数矩阵,然后构建一个状态转移分数矩阵,最后通过viterbi算法逐步推算出最优路径。
上图就是构造这个模型的具体步骤,下面我将详细讲解从BiLSTM以上的步骤。
BiLSTM
BiLSTM其实没什么讲的,因为我之前也做过类似的实验,这里需要注意的是:
-
BiLSTM的输入输出的tensor的形状