LSTM+Attention+CRF的原理讲解
CRF
简单来说一组参数theta可以唯一确定一组模型,我们需要找到一组最优参数使得训练数据中 x->y 的概率最大化。将上述最大化的目标函数P取负,转化为最小化问题,即可用反向传播算法进行优化,找到近似最优参数theta。
在CRF模型中有一个简单的假设,即当前输出的标签只和上一级输出的标签以及当前的输入有关,所以Score(x, y)应该由两部分组成,一个是转移特征概率,一个是状态特征概率。什么意思呢,转移特征概率是指前一个输出标签为 B 的前提下我当前输出标签为某个值比如 I 的概率大小。而状
原创
2020-10-12 22:58:00 ·
4588 阅读 ·
0 评论