确定下来的模型是bert + bi-lstm + crf
使用bi-lstm的原因是跟位置信息有关,bert的Positional Encoding只能表达绝对位置信息,不能完全表达相对位置,根据二者的计算公式只能得到相对距离,但是无法表示方向性。
对应的文章链接: 浅谈 Transformer-based 模型中的位置表示
关于crf层,损失函数的定义与转化,从而得到相对应的递推公式:
递推公式:
对应链接为: crf层介绍–CRF Layer on the Top of BiLSTM