BiLSTM+CRF
现在比较流行的是bilstm+crf,即在bilstm后面接了crf层
- 经过bilstm得到隐状态序列 ( h 1 , h 2 , . . . , h n ) ∈ R n ∗ m (h_1,h_2,...,h_n) \in R^{n*m} (h1,h2,...,hn)∈Rn∗m
- 接入一个线性层,转换隐状态序列的维度,从 m m m维转换到 k k k维, k k k是标签数。我们可以理解这一步是由网络自动学习当前时刻对应到每个标签的分数。
- 接下来是CRF层,这一层需要学得的参数是 ( k + 2 ) ∗ ( k + 2 ) (k+2)*(k+2) (k+2)∗(k+