简介
序列标注:
指给定输入序列,给序列中每个Token进行标注标签的过程。它可以从文本中进行信息抽取,包括分词、词性标注、命名实体识别等。
条件随机场:
一种能够学习单个字之间关联关系的算法的模型,它能保证预测结果的正确性。
Viterbi算法
在完成前向训练部分后,需要使用Viterbi这个适合求解序列最优路径的算法实现解码部分。这种算法要求在解码时同时需要将第i个Token对应的score取值最大的标签保存。
BiLSTM+CRF模型
模型如下:
nn.Embedding -> nn.LSTM -> nn.Dense -> CRF
LSTM:用于提取序列特征;
Dense层:用于变换获得发射概率矩阵;
CRF层:最后接收数据